Skip to main content

منظور از دقت در MMLU و BIG-bench و HumanEval چیست؟

پاسخ کوتاه:
دقت (Accuracy) در معیارهای MMLU، BIG-bench و HumanEval به معنای درصد پاسخ‌های درست مدل نسبت به کل پرسش‌ها یا وظایف است. این معیار نشان می‌دهد مدل تا چه حد توانسته خروجی صحیح و مطابق انتظار تولید کند.


🔍 توضیح جزئی‌تر

1. MMLU (Massive Multitask Language Understanding)

  • چیست؟ مجموعه‌ای از بیش از 57 حوزه مختلف (ریاضی، تاریخ، پزشکی، حقوق و …) برای سنجش توانایی مدل در درک زبان و دانش عمومی.
  • دقت در MMLU: درصد پاسخ‌های درست مدل به سؤالات چندگزینه‌ای.
  • هدف: بررسی توانایی مدل در دانش عمومی و تخصصی و مقایسه آن با سطح انسانی (دانش‌آموز دبیرستان، دانشجوی دانشگاه، متخصص).

2. BIG-bench (Beyond the Imitation Game Benchmark)

  • چیست؟ مجموعه‌ای بزرگ از بیش از 200 وظیفه متنوع شامل ریاضی، منطق، استدلال اجتماعی، خلاقیت و تحلیل متن.
  • دقت در BIG-bench: میزان پاسخ‌های درست یا خروجی‌های مطابق معیارهای از پیش تعیین‌شده در هر وظیفه.
  • هدف: سنجش توانایی مدل در استدلال و حل مسائل پیچیده فراتر از وظایف ساده زبانی.

3. HumanEval

  • چیست؟ مجموعه‌ای از مسائل برنامه‌نویسی (عمدتاً در Python) که مدل باید کد تولید کند.
  • دقت در HumanEval: درصد کدهایی که پس از اجرا، تمام تست‌های واحد (unit tests) را با موفقیت می‌گذرانند.
  • هدف: سنجش توانایی مدل در تولید کد صحیح و قابل اجرا، نه فقط نوشتن کدی که ظاهراً درست به نظر می‌رسد.

📊 مقایسه سه معیار

معیارنوع وظیفهتعریف دقتهدف اصلی
MMLU سؤالات چندگزینه‌ای در حوزه‌های مختلف درصد پاسخ‌های درست سنجش دانش عمومی و تخصصی
BIG-bench وظایف متنوع (منطق، ریاضی، خلاقیت) درصد خروجی‌های درست یا مطابق معیار سنجش استدلال و توانایی حل مسائل پیچیده
HumanEval مسائل برنامه‌نویسی (Python) درصد کدهای موفق در تست‌های واحد سنجش توانایی تولید کد صحیح و اجرایی

⚠️ نکته مهم

  • دقت در این معیارها فقط یک شاخص است. ممکن است مدلی دقت بالایی داشته باشد اما در توضیح منطق یا تعامل انسانی ضعیف عمل کند.
  • HumanEval به‌طور خاص روی صحت عملکرد کد تمرکز دارد، در حالی که MMLU و BIG-bench بیشتر جنبه‌های زبانی، دانش و استدلال را می‌سنجند.

 

حاضرین در سایت

ما 43 مهمان و یک عضو آنلاین داریم