Skip to main content

Beyond Transformer

Beyond Transformer چیست؟ پاسخ کوتاه:Beyond Transformer به مجموعه‌ای از پژوهش‌ها و معماری‌های جدید در هوش مصنوعی اشاره دارد که تلاش می‌کنند محدودیت‌های ترنسفورمرهای کلاسیک (مانند BERT و GPT) را برطرف کنند. این رویکردها شامل مدل‌های «State Space»، شبکه‌های حافظه بازگشتی و معماری‌های الهام‌گرفته از علوم اعصاب و نظریه کنترل هستند. 🔹 ترنسفورمر چیست؟ ترنسفورمر (Transformer) معماری‌ای در یادگیری عمیق است که در سال ۲۰۱۷ توسط گوگل معرفی شد. اساس آن مکانیزم توجه (Attention) است که به مدل اجازه می‌دهد روابط بین اجزای یک دنباله (مثلاً کلمات جمله) را بدون نیاز به پردازش ترتیبی بیاموزد. این...

ادامه مطلب

محدودیت ها و چالش های PaLM Pathways Language Model

خلاصه سریع:مدل PaLM (Pathways Language Model) با وجود دستاوردهای چشمگیر در مقیاس‌پذیری و توانایی‌های زبانی، با چالش‌هایی جدی مانند هزینه محاسباتی بسیار بالا، سوگیری داده‌ها، خطر یادسپاری اطلاعات حساس، و مسائل اخلاقی مواجه است. 🚧 محدودیت‌ها و چالش‌های اصلی PaLM 1. هزینه و منابع محاسباتی مقیاس عظیم: نسخه‌ی بزرگ PaLM دارای 540 میلیارد پارامتر است. آموزش چنین مدلی نیازمند هزاران تراشه TPU v4 (6144 واحد) و انرژی بسیار زیاد است. دسترس‌پذیری محدود: تنها سازمان‌های بزرگ با زیرساخت‌های ابری قدرتمند می‌توانند چنین مدلی را آموزش دهند؛ این موضوع مانع استفاده گسترده توسط پژوهشگران مستقل...

ادامه مطلب

منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟

پاسخ کوتاه:دقت (Accuracy) در معیارهای MMLU، BIG-bench و HumanEval به معنای درصد پاسخ‌های درست مدل نسبت به کل پرسش‌ها یا وظایف است. این معیار نشان می‌دهد مدل تا چه حد توانسته خروجی صحیح و مطابق انتظار تولید کند. 🔍 توضیح جزئی‌تر 1. MMLU (Massive Multitask Language Understanding) چیست؟ مجموعه‌ای از بیش از 57 حوزه مختلف (ریاضی، تاریخ، پزشکی، حقوق و …) برای سنجش توانایی مدل در درک زبان و دانش عمومی. دقت در MMLU: درصد پاسخ‌های درست مدل به سؤالات چندگزینه‌ای. هدف: بررسی توانایی مدل در دانش عمومی و تخصصی و مقایسه آن با سطح انسانی (دانش‌آموز دبیرستان، دانشجوی دانشگاه، متخصص). 2....

ادامه مطلب

همه چیز درباره پردازنده های TPU

خلاصه سریع: پردازنده‌های TPU (Tensor Processing Unit) تراشه‌های اختصاصی گوگل هستند که از سال ۲۰۱۶ معرفی شدند و به‌طور ویژه برای اجرای مدل‌های یادگیری ماشین و یادگیری عمیق طراحی شده‌اند. آن‌ها در مقایسه با CPU و GPU سرعت بالاتر، مصرف انرژی کمتر و کارایی ویژه در پردازش ماتریس‌ها دارند. 🔹 پردازنده TPU چیست؟ TPU یک مدار مجتمع با کاربرد خاص (ASIC) است که توسط گوگل ساخته شده. هدف اصلی آن تسریع محاسبات یادگیری ماشین، به‌ویژه در چارچوب TensorFlow است. برخلاف CPU (عمومی) و GPU (گرافیکی و موازی)، TPU فقط برای وظایف خاص مرتبط با شبکه‌های عصبی و عملیات ماتریسی بهینه‌سازی شده است. 🔹...

ادامه مطلب

منظور از بُعد برای نمایش های پنهان در هوش مصنوعی چیست؟

در هوش مصنوعی—به‌ویژه در شبکه‌های عصبی و مدل‌های زبانی—منظور از بُعد (Dimension) نمایش‌های پنهان این است که:هر داده (مثلاً یک کلمه، تصویر یا جمله) در داخل مدل، به‌صورت یک بردار عددی با طول مشخص نمایش داده می‌شود و این طول همان «بُعد» نمایش پنهان است. توضیح ساده فرض کنید مدل بخواهد معنی یک کلمه یا جمله را «درک» کند. به‌جای استفاده از متن خام، آن را به یک بردار عددی تبدیل می‌کند مثل: نمایش پنهان=0.12 −1.7 0.03 … 2.1 \text{نمایش پنهان} = [0.12,\ -1.7,\ 0.03,\ \dots,\ 2.1] نمایش پنهان=[0.12,−1.7,0.03,…,2.1] اگر این بردار ۱٬۰۲۴ عدد داشته باشد، می‌گوییم: ...

ادامه مطلب

منظور از SWiGLU چیست؟

SWiGLU (Swish‑Gated Linear Unit) یک تابع فعال‌سازی پیشرفته است که در مدل‌های زبانی بزرگ مانند PaLM، GPT‑NeoX و LLaMA استفاده می‌شود. این تابع ترکیبی از Swish (یا SiLU) و Gating‑mechanism (مکانیزم گیت) است و عملکرد بهتری نسبت به ReLU یا GELU در مدل‌های عمیق ارائه می‌دهد. فرمول ریاضی اگر ورودی را x و وزن‌های خطی را W و V در نظر بگیریم، SWiGLU به صورت زیر تعریف می‌شود: SWiGLUx=SwishxW⊗xV \text{SWiGLU}(x) = \text{Swish}(xW) \otimes (xV) SWiGLU(x)=Swish(xW)⊗(xV) که در آن: Swish(x) = x \cdot \sigma(x) (σ تابع سیگموید است) ⊗ ضرب عنصر به عنصر (Hadamard product) است. W و V دو ماتریس وزن...

ادامه مطلب

منظور از هد در لایه در هوش مصنوعی چیست؟

در هوش مصنوعی—به‌ویژه در مدل‌های ترنسفورمر (مثل GPT، BERT و …)—منظور از «هد (Head) در لایه» معمولاً هدِ توجه (Attention Head) است. به زبان ساده:      هر هد = یک روشِ مستقل برای توجه کردن به داده‌ها هدِ توجه (Attention Head) یعنی چه؟ در هر لایه (Layer) از ترنسفورمر، مکانیزمی به نام توجه چندسری (Multi‑Head Attention) وجود دارد. به‌جای اینکه مدل فقط یک نوع توجه داشته باشد، آن را به چند قسمت موازی تقسیم می‌کند که به آن‌ها می‌گویند: هدهای توجه (Attention Heads) چرا چند هد داریم؟ هر هد روی نوع متفاوتی از رابطه‌ها تمرکز می‌کند. مثلاً: یک هد یاد می‌گیرد: وابستگی‌های...

ادامه مطلب

معماری PaLM

معماری پایه PaLM از معماری ترنسفورمر استاندارد استفاده می‌کند اما در مقیاسی بی‌سابقه: ۱۱۸ لایه ترنسفورمر( ترنسفورمر یا مُبَدِّل، روشی است که به رایانه اجازه می‌دهد تا یک دنباله از نویسه‌ها را به دنباله دیگری از نویسه‌ها تبدیل کند.) ۴۸ هد توجه در هر لایه بعد ۱۸,۴۳۲ برای نمایش‌های پنهان تابع فعال‌سازی SwiGLU نوآوری Pathways سیستم Pathways امکان آموزش مدل روی ۶,۱۴۴ پردازنده TPU را به صورت همزمان فراهم می‌کند: مدیریت کارآمد حافظه و محاسبات کاهش زمان آموزش از ماه‌ها به هفته‌ها بهینه‌سازی استفاده از منابع پشتیبانی از مدل‌های بسیار بزرگ

ادامه مطلب

PaLM

منظور از B در اعداد بالا مترادف Billion در زبان انگلیسی و به معنای میلیارد است. PaLM (Pathways Language Model)  مدل زبان مسیرها (PaLM) یک مدل زبان بزرگ (LLM) مبتنی بر مبدل و رمزگشای متراکم ۵۴۰ میلیارد پارامتری است که توسط هوش مصنوعی گوگل توسعه داده شده است.محققان همچنین نسخه‌های کوچک‌تری از PaLM (با ۸ و ۶۲ میلیارد پارامتر) را برای آزمایش اثرات مقیاس مدل آموزش دادند.PaLM قادر به انجام طیف گسترده‌ای از وظایف، از جمله استدلال عقل سلیم، استدلال حسابی، توضیح شوخی، تولید کد و ترجمه است.PaLM هنگامی که با زنجیره فکری ترکیب شد، عملکرد بسیار بهتری در مجموعه داده‌هایی که نیاز به استدلال...

ادامه مطلب

حاضرین در سایت

ما 29 مهمان و یک عضو آنلاین داریم