منظور از هد در لایه در هوش مصنوعی چیست؟

نوشته شده توسط Mousavi در 08 دی 1404 ارسال شده در PaLM.

در هوش مصنوعی—به‌ویژه در مدل‌های ترنسفورمر (مثل GPT، BERT و …)—منظور از «هد (Head) در لایه» معمولاً هدِ توجه (Attention Head) است.

به زبان ساده: هر هد = یک روشِ مستقل برای توجه کردن به داده‌ها

هدِ توجه (Attention Head) یعنی چه؟

در هر لایه (Layer) از ترنسفورمر، مکانیزمی به نام توجه چندسری (Multi‑Head Attention) وجود دارد.

به‌جای اینکه مدل فقط یک نوع توجه داشته باشد، آن را به چند قسمت موازی تقسیم می‌کند که به آن‌ها می‌گویند:

هدهای توجه (Attention Heads)

هر هد روی نوع متفاوتی از رابطه‌ها تمرکز می‌کند. مثلاً:

به همین دلیل:

چند هد = دیدن هم‌زمانِ چند «زاویه» مختلف از داده

جمله: «دانشجویی که دیروز دیدمش امروز امتحان دارد»

هدهای مختلف ممکن است:

همه این‌ها در یک لایه ولی با هدهای متفاوت اتفاق می‌افتد.

وقتی می‌گوییم:

«این مدل در هر لایه ۴۸ هد دارد»

یعنی:

از نظر ریاضی:

لایه (Layer):
- مرحله‌ای از پردازش عمیق‌تر
- هرچه لایه بالاتر → ویژگی‌های抽象‌تر
هد (Head):
- روش‌های موازی توجه در همان لایه
- هر لایه چند هد دارد

اگر بخواهی، می‌توانم: