منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟
پاسخ کوتاه:
دقت (Accuracy) در معیارهای MMLU، BIG-bench و HumanEval به معنای درصد پاسخهای درست مدل نسبت به کل پرسشها یا وظایف است. این معیار نشان میدهد مدل تا چه حد توانسته خروجی صحیح و مطابق انتظار تولید کند.
🔍 توضیح جزئیتر
1. MMLU (Massive Multitask Language Understanding)
- چیست؟ مجموعهای از بیش از 57 حوزه مختلف (ریاضی، تاریخ، پزشکی، حقوق و …) برای سنجش توانایی مدل در درک زبان و دانش عمومی.
- دقت در MMLU: درصد پاسخهای درست مدل به سؤالات چندگزینهای.
- هدف: بررسی توانایی مدل در دانش عمومی و تخصصی و مقایسه آن با سطح انسانی (دانشآموز دبیرستان، دانشجوی دانشگاه، متخصص).
2. BIG-bench (Beyond the Imitation Game Benchmark)
- چیست؟ مجموعهای بزرگ از بیش از 200 وظیفه متنوع شامل ریاضی، منطق، استدلال اجتماعی، خلاقیت و تحلیل متن.
- دقت در BIG-bench: میزان پاسخهای درست یا خروجیهای مطابق معیارهای از پیش تعیینشده در هر وظیفه.
- هدف: سنجش توانایی مدل در استدلال و حل مسائل پیچیده فراتر از وظایف ساده زبانی.
3. HumanEval
- چیست؟ مجموعهای از مسائل برنامهنویسی (عمدتاً در Python) که مدل باید کد تولید کند.
- دقت در HumanEval: درصد کدهایی که پس از اجرا، تمام تستهای واحد (unit tests) را با موفقیت میگذرانند.
- هدف: سنجش توانایی مدل در تولید کد صحیح و قابل اجرا، نه فقط نوشتن کدی که ظاهراً درست به نظر میرسد.
📊 مقایسه سه معیار
| معیار | نوع وظیفه | تعریف دقت | هدف اصلی |
|---|---|---|---|
| MMLU | سؤالات چندگزینهای در حوزههای مختلف | درصد پاسخهای درست | سنجش دانش عمومی و تخصصی |
| BIG-bench | وظایف متنوع (منطق، ریاضی، خلاقیت) | درصد خروجیهای درست یا مطابق معیار | سنجش استدلال و توانایی حل مسائل پیچیده |
| HumanEval | مسائل برنامهنویسی (Python) | درصد کدهای موفق در تستهای واحد | سنجش توانایی تولید کد صحیح و اجرایی |
⚠️ نکته مهم
- دقت در این معیارها فقط یک شاخص است. ممکن است مدلی دقت بالایی داشته باشد اما در توضیح منطق یا تعامل انسانی ضعیف عمل کند.
- HumanEval بهطور خاص روی صحت عملکرد کد تمرکز دارد، در حالی که MMLU و BIG-bench بیشتر جنبههای زبانی، دانش و استدلال را میسنجند.

