منظور از هد در لایه در هوش مصنوعی چیست؟
در هوش مصنوعی—بهویژه در مدلهای ترنسفورمر (مثل GPT، BERT و …)—منظور از «هد (Head) در لایه» معمولاً هدِ توجه (Attention Head) است.
به زبان ساده: هر هد = یک روشِ مستقل برای توجه کردن به دادهها
هدِ توجه (Attention Head) یعنی چه؟
در هر لایه (Layer) از ترنسفورمر، مکانیزمی به نام توجه چندسری (Multi‑Head Attention) وجود دارد.
بهجای اینکه مدل فقط یک نوع توجه داشته باشد، آن را به چند قسمت موازی تقسیم میکند که به آنها میگویند:
هدهای توجه (Attention Heads)
چرا چند هد داریم؟
هر هد روی نوع متفاوتی از رابطهها تمرکز میکند. مثلاً:
- یک هد یاد میگیرد:
- وابستگیهای نحوی (فاعل–فعل)
- یک هد دیگر:
- وابستگیهای معنایی
- یک هد:
- کلمات دور از هم در جمله
- یک هد:
- ترتیب زمانی یا موقعیت
به همین دلیل:
چند هد = دیدن همزمانِ چند «زاویه» مختلف از داده
مثال خیلی ساده
جمله: «دانشجویی که دیروز دیدمش امروز امتحان دارد»
هدهای مختلف ممکن است:
- هد ۱: بفهمد «دانشجویی ← امتحان دارد»
- هد ۲: بفهمد «دیروز ← دیدمش»
- هد ۳: ارتباط ضمیرها را تشخیص دهد
- هد ۴: ساختار دستوری جمله را بگیرد
همه اینها در یک لایه ولی با هدهای متفاوت اتفاق میافتد.
هد در لایه یعنی چه دقیقاً؟
وقتی میگوییم:
«این مدل در هر لایه ۴۸ هد دارد»
یعنی:
- هر لایهی ترنسفورمر
- شامل ۴۸ مکانیزم توجه مستقل
- که بهصورت موازی روی داده کار میکنند
از نظر ریاضی:
- هر هد بردارهای Query, Key, Value مخصوص خودش را دارد
- خروجی همه هدها در پایان با هم ترکیب میشود
تفاوت هد و لایه
-
لایه (Layer):
- مرحلهای از پردازش عمیقتر
- هرچه لایه بالاتر → ویژگیهای抽象تر
-
هد (Head):
- روشهای موازی توجه در همان لایه
- هر لایه چند هد دارد
جمعبندی کوتاه
- هد = یک واحد توجه مستقل
- چند هد = دیدن چند الگوی مختلف همزمان
- هر لایه ترنسفورمر شامل چند هد توجه است
- بیشتر بودن هدها → قدرت مدل بالاتر (تا حد بهینه)
اگر بخواهی، میتوانم:
- فرمول ریاضی Multi‑Head Attention را توضیح بدهم
- یا یک دیاگرام تصویری ساده بکشم
- یا بگویم چرا مثلاً GPT‑ها هدهای زیاد دارند ولی CNNها ندارند

