Beyond Transformer چیست؟
پاسخ کوتاه:Beyond Transformer به مجموعهای از پژوهشها و معماریهای جدید در هوش مصنوعی اشاره دارد که تلاش میکنند محدودیتهای ترنسفورمرهای کلاسیک (مانند BERT و GPT) را برطرف کنند. این رویکردها شامل مدلهای «State Space»، شبکههای حافظه بازگشتی و معماریهای الهامگرفته از علوم اعصاب و نظریه کنترل هستند.
🔹 ترنسفورمر چیست؟
ترنسفورمر (Transformer) معماریای در یادگیری عمیق است که در سال ۲۰۱۷ توسط گوگل معرفی شد.
اساس آن مکانیزم توجه (Attention) است که به مدل اجازه میدهد روابط بین اجزای یک دنباله (مثلاً کلمات جمله) را بدون نیاز به پردازش ترتیبی بیاموزد.
این...
محدودیت ها و چالش های PaLM Pathways Language Model
خلاصه سریع:مدل PaLM (Pathways Language Model) با وجود دستاوردهای چشمگیر در مقیاسپذیری و تواناییهای زبانی، با چالشهایی جدی مانند هزینه محاسباتی بسیار بالا، سوگیری دادهها، خطر یادسپاری اطلاعات حساس، و مسائل اخلاقی مواجه است.
🚧 محدودیتها و چالشهای اصلی PaLM
1. هزینه و منابع محاسباتی
مقیاس عظیم: نسخهی بزرگ PaLM دارای 540 میلیارد پارامتر است. آموزش چنین مدلی نیازمند هزاران تراشه TPU v4 (6144 واحد) و انرژی بسیار زیاد است.
دسترسپذیری محدود: تنها سازمانهای بزرگ با زیرساختهای ابری قدرتمند میتوانند چنین مدلی را آموزش دهند؛ این موضوع مانع استفاده گسترده توسط پژوهشگران مستقل...
منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟
پاسخ کوتاه:دقت (Accuracy) در معیارهای MMLU، BIG-bench و HumanEval به معنای درصد پاسخهای درست مدل نسبت به کل پرسشها یا وظایف است. این معیار نشان میدهد مدل تا چه حد توانسته خروجی صحیح و مطابق انتظار تولید کند.
🔍 توضیح جزئیتر
1. MMLU (Massive Multitask Language Understanding)
چیست؟ مجموعهای از بیش از 57 حوزه مختلف (ریاضی، تاریخ، پزشکی، حقوق و …) برای سنجش توانایی مدل در درک زبان و دانش عمومی.
دقت در MMLU: درصد پاسخهای درست مدل به سؤالات چندگزینهای.
هدف: بررسی توانایی مدل در دانش عمومی و تخصصی و مقایسه آن با سطح انسانی (دانشآموز دبیرستان، دانشجوی دانشگاه، متخصص).
2....
همه چیز درباره پردازنده های TPU
خلاصه سریع: پردازندههای TPU (Tensor Processing Unit) تراشههای اختصاصی گوگل هستند که از سال ۲۰۱۶ معرفی شدند و بهطور ویژه برای اجرای مدلهای یادگیری ماشین و یادگیری عمیق طراحی شدهاند. آنها در مقایسه با CPU و GPU سرعت بالاتر، مصرف انرژی کمتر و کارایی ویژه در پردازش ماتریسها دارند.
🔹 پردازنده TPU چیست؟
TPU یک مدار مجتمع با کاربرد خاص (ASIC) است که توسط گوگل ساخته شده.
هدف اصلی آن تسریع محاسبات یادگیری ماشین، بهویژه در چارچوب TensorFlow است.
برخلاف CPU (عمومی) و GPU (گرافیکی و موازی)، TPU فقط برای وظایف خاص مرتبط با شبکههای عصبی و عملیات ماتریسی بهینهسازی شده است.
🔹...
منظور از بُعد برای نمایش های پنهان در هوش مصنوعی چیست؟
در هوش مصنوعی—بهویژه در شبکههای عصبی و مدلهای زبانی—منظور از بُعد (Dimension) نمایشهای پنهان این است که:هر داده (مثلاً یک کلمه، تصویر یا جمله) در داخل مدل، بهصورت یک بردار عددی با طول مشخص نمایش داده میشود و این طول همان «بُعد» نمایش پنهان است.
توضیح ساده
فرض کنید مدل بخواهد معنی یک کلمه یا جمله را «درک» کند. بهجای استفاده از متن خام، آن را به یک بردار عددی تبدیل میکند مثل:
نمایش پنهان=0.12 −1.7 0.03 … 2.1 \text{نمایش پنهان} = [0.12,\ -1.7,\ 0.03,\ \dots,\ 2.1] نمایش پنهان=[0.12,−1.7,0.03,…,2.1]
اگر این بردار ۱٬۰۲۴ عدد داشته باشد، میگوییم: ...
منظور از SWiGLU چیست؟
SWiGLU (Swish‑Gated Linear Unit)
یک تابع فعالسازی پیشرفته است که در مدلهای زبانی بزرگ مانند PaLM، GPT‑NeoX و LLaMA استفاده میشود. این تابع ترکیبی از Swish (یا SiLU) و Gating‑mechanism (مکانیزم گیت) است و عملکرد بهتری نسبت به ReLU یا GELU در مدلهای عمیق ارائه میدهد.
فرمول ریاضی
اگر ورودی را x و وزنهای خطی را W و V در نظر بگیریم، SWiGLU به صورت زیر تعریف میشود:
SWiGLUx=SwishxW⊗xV \text{SWiGLU}(x) = \text{Swish}(xW) \otimes (xV) SWiGLU(x)=Swish(xW)⊗(xV)
که در آن:
Swish(x) = x \cdot \sigma(x) (σ تابع سیگموید است)
⊗ ضرب عنصر به عنصر (Hadamard product) است.
W و V دو ماتریس وزن...
منظور از هد در لایه در هوش مصنوعی چیست؟
در هوش مصنوعی—بهویژه در مدلهای ترنسفورمر (مثل GPT، BERT و …)—منظور از «هد (Head) در لایه» معمولاً هدِ توجه (Attention Head) است.
به زبان ساده: هر هد = یک روشِ مستقل برای توجه کردن به دادهها
هدِ توجه (Attention Head) یعنی چه؟
در هر لایه (Layer) از ترنسفورمر، مکانیزمی به نام توجه چندسری (Multi‑Head Attention) وجود دارد.
بهجای اینکه مدل فقط یک نوع توجه داشته باشد، آن را به چند قسمت موازی تقسیم میکند که به آنها میگویند:
هدهای توجه (Attention Heads)
چرا چند هد داریم؟
هر هد روی نوع متفاوتی از رابطهها تمرکز میکند. مثلاً:
یک هد یاد میگیرد:
وابستگیهای...
معماری PaLM
معماری پایه
PaLM از معماری ترنسفورمر استاندارد استفاده میکند اما در مقیاسی بیسابقه:
۱۱۸ لایه ترنسفورمر( ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه میدهد تا یک دنباله از نویسهها را به دنباله دیگری از نویسهها تبدیل کند.)
۴۸ هد توجه در هر لایه
بعد ۱۸,۴۳۲ برای نمایشهای پنهان
تابع فعالسازی SwiGLU
نوآوری Pathways
سیستم Pathways امکان آموزش مدل روی ۶,۱۴۴ پردازنده TPU را به صورت همزمان فراهم میکند:
مدیریت کارآمد حافظه و محاسبات
کاهش زمان آموزش از ماهها به هفتهها
بهینهسازی استفاده از منابع
پشتیبانی از مدلهای بسیار بزرگ
PaLM
منظور از B در اعداد بالا مترادف Billion در زبان انگلیسی و به معنای میلیارد است.
PaLM (Pathways Language Model)
مدل زبان مسیرها (PaLM) یک مدل زبان بزرگ (LLM) مبتنی بر مبدل و رمزگشای متراکم ۵۴۰ میلیارد پارامتری است که توسط هوش مصنوعی گوگل توسعه داده شده است.محققان همچنین نسخههای کوچکتری از PaLM (با ۸ و ۶۲ میلیارد پارامتر) را برای آزمایش اثرات مقیاس مدل آموزش دادند.PaLM قادر به انجام طیف گستردهای از وظایف، از جمله استدلال عقل سلیم، استدلال حسابی، توضیح شوخی، تولید کد و ترجمه است.PaLM هنگامی که با زنجیره فکری ترکیب شد، عملکرد بسیار بهتری در مجموعه دادههایی که نیاز به استدلال...

