کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان

ارزیابی مدل‌های زبانی بزرگ در حال تبدیل شدن به یک بن‌بست مالی است. اگر هنوز برای سنجش کیفیت مدل‌های خود به نمونه‌برداری یکنواخت و برچسب‌گذاری انبوه تکیه می‌کنید، احتمالاً بودجه‌ی خود را دور می‌ریزید.

در حالی که مدل‌ها مقیاس‌پذیرتر می‌شوند و وظایف هدفمند به متخصصان گران‌قیمت برای تصحیح نیاز دارند، هزینه‌ی تأیید عملکرد مدل‌ها دیگر قابل تحمل نیست. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، افزایش اندازه مدل بدون یک سیستم ارزیابی دقیق و بهینه، عملاً پیشروی در تاریکی است. روش‌های فعلی تست فعال در مواجهه با وظایف هوش مصنوعی زاینده (Generative AI) شکست می‌خورند و توسعه‌دهندگان را مجبور می‌کنند به نمونه‌برداری‌های هزینه‌بر روی آوردند.

به نقل از مقاله‌ای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، الگوریتم جدیدی معرفی شده است که از آنتروپی معنایی (Semantic Entropy) مدل‌های جایگزین برای لایه‌بندی مجموعه‌های ارزیابی استفاده می‌کند. بر اساس مستندات این پژوهش، جزئیات فنی این متد به شرح زیر است:

بهره‌گیری از تخصیص تقریبی نیمان (Approximate Neyman Allocation) برای اولویت‌بندی زیرمجموعه‌های داده‌ای که بیشترین اطلاعات را ارائه می‌دهند.
آزمایش متد بر روی چندین بنچمارک چندوجهی (Multimodal) و زبانی.
دستیابی به کاهش میانگین ۲۲.۹ درصدی در بودجه‌ی برچسب‌گذاری نسبت به خط‌کش‌های استاندارد.

برای جامعه‌ی فنی، این دستاورد فرضیه‌ی نیاز به مجموعه‌داده‌های عظیم و «برت‌فورس» برای ارزیابی مدل‌های زاینده را می‌شکند. با استفاده از مدل‌های جایگزین (Surrogate Models) برای هدایت فرآیند تست، آزمایشگاه‌ها می‌توانند با نمونه‌های انسانی بسیار کمتر، به بنچمارک‌هایی با اطمینان بالا دست یابند. این موضوع به‌طور مستقیم مانع ورود به مرحله‌ی تکرار سریع در فاز مقیاس‌بندی زمان استنتاج (Test-time scaling) را برمی‌دارد.

گام بعدی شما

بررسی پیاده‌سازی این متد در چارچوب‌های ارزیابی متن‌باز برای سنجش میزان صرفه‌جویی در دامنه‌های تخصصی.
تحلیل امکان به‌کارگیری استراتژی تخصیص نیمان در نظارت لحظه‌ای (Real-time monitoring) بر جریان‌های کاری عامل‌محور (Agentic).
مقایسه نرخ خطای MSE در مدل‌های کوچک‌تر (SLM) با استفاده از این روش ارزیابی.

اما تأثیر این بهینه‌سازی بر هزینه‌های استنتاج در مقیاس صنعتی، ابعاد پیچیده‌تری دارد — به تحلیل ما درباره‌ی بهینه‌سازی مصرف GPUها مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بهره‌گیری از تخصیص تقریبی نیمان (Approximate Neyman Allocation) برای اولویت‌بندی زیرمجموعه‌های داده‌ای که بیشترین اطلاعات را ارائه می‌دهند.
آزمایش متد بر روی چندین بنچمارک چندوجهی (Multimodal) و زبانی.
دستیابی به کاهش میانگین ۲۲.۹ درصدی در بودجه‌ی برچسب‌گذاری نسبت به خط‌کش‌های استاندارد.

گام بعدی شما

بررسی پیاده‌سازی این متد در چارچوب‌های ارزیابی متن‌باز برای سنجش میزان صرفه‌جویی در دامنه‌های تخصصی.
تحلیل امکان به‌کارگیری استراتژی تخصیص نیمان در نظارت لحظه‌ای (Real-time monitoring) بر جریان‌های کاری عامل‌محور (Agentic).
مقایسه نرخ خطای MSE در مدل‌های کوچک‌تر (SLM) با استفاده از این روش ارزیابی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۲۸ درصدی خطای ارزیابی LLM با الگوریتم جدید تخصیص تقریبی نیمان

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران