منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟

نوشته شده توسط Mousavi در 08 دی 1404 ارسال شده در PaLM.

پاسخ کوتاه:
دقت (Accuracy) در معیارهای MMLU، BIG-bench و HumanEval به معنای درصد پاسخ‌های درست مدل نسبت به کل پرسش‌ها یا وظایف است. این معیار نشان می‌دهد مدل تا چه حد توانسته خروجی صحیح و مطابق انتظار تولید کند.

🔍 توضیح جزئی‌تر

1. MMLU (Massive Multitask Language Understanding)

چیست؟ مجموعه‌ای از بیش از 57 حوزه مختلف (ریاضی، تاریخ، پزشکی، حقوق و …) برای سنجش توانایی مدل در درک زبان و دانش عمومی.
دقت در MMLU: درصد پاسخ‌های درست مدل به سؤالات چندگزینه‌ای.
هدف: بررسی توانایی مدل در دانش عمومی و تخصصی و مقایسه آن با سطح انسانی (دانش‌آموز دبیرستان، دانشجوی دانشگاه، متخصص).

2. BIG-bench (Beyond the Imitation Game Benchmark)

چیست؟ مجموعه‌ای بزرگ از بیش از 200 وظیفه متنوع شامل ریاضی، منطق، استدلال اجتماعی، خلاقیت و تحلیل متن.
دقت در BIG-bench: میزان پاسخ‌های درست یا خروجی‌های مطابق معیارهای از پیش تعیین‌شده در هر وظیفه.
هدف: سنجش توانایی مدل در استدلال و حل مسائل پیچیده فراتر از وظایف ساده زبانی.

3. HumanEval

چیست؟ مجموعه‌ای از مسائل برنامه‌نویسی (عمدتاً در Python) که مدل باید کد تولید کند.
دقت در HumanEval: درصد کدهایی که پس از اجرا، تمام تست‌های واحد (unit tests) را با موفقیت می‌گذرانند.
هدف: سنجش توانایی مدل در تولید کد صحیح و قابل اجرا، نه فقط نوشتن کدی که ظاهراً درست به نظر می‌رسد.

📊 مقایسه سه معیار

معیار	نوع وظیفه	تعریف دقت	هدف اصلی
MMLU	سؤالات چندگزینه‌ای در حوزه‌های مختلف	درصد پاسخ‌های درست	سنجش دانش عمومی و تخصصی
BIG-bench	وظایف متنوع (منطق، ریاضی، خلاقیت)	درصد خروجی‌های درست یا مطابق معیار	سنجش استدلال و توانایی حل مسائل پیچیده
HumanEval	مسائل برنامه‌نویسی (Python)	درصد کدهای موفق در تست‌های واحد	سنجش توانایی تولید کد صحیح و اجرایی

⚠️ نکته مهم

دقت در این معیارها فقط یک شاخص است. ممکن است مدلی دقت بالایی داشته باشد اما در توضیح منطق یا تعامل انسانی ضعیف عمل کند.
HumanEval به‌طور خاص روی صحت عملکرد کد تمرکز دارد، در حالی که MMLU و BIG-bench بیشتر جنبه‌های زبانی، دانش و استدلال را می‌سنجند.

منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟

🔍 توضیح جزئی‌تر

1. MMLU (Massive Multitask Language Understanding)

2. BIG-bench (Beyond the Imitation Game Benchmark)

3. HumanEval

📊 مقایسه سه معیار

⚠️ نکته مهم

حاضرین در سایت

Privacy Settings

Functional

Preferences