ارزیابی مدلهای زبانی بزرگ در حال تبدیل شدن به یک بنبست مالی است. اگر هنوز برای سنجش کیفیت مدلهای خود به نمونهبرداری یکنواخت و برچسبگذاری انبوه تکیه میکنید، احتمالاً بودجهی خود را دور میریزید.
در حالی که مدلها مقیاسپذیرتر میشوند و وظایف هدفمند به متخصصان گرانقیمت برای تصحیح نیاز دارند، هزینهی تأیید عملکرد مدلها دیگر قابل تحمل نیست. همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، افزایش اندازه مدل بدون یک سیستم ارزیابی دقیق و بهینه، عملاً پیشروی در تاریکی است. روشهای فعلی تست فعال در مواجهه با وظایف هوش مصنوعی زاینده (Generative AI) شکست میخورند و توسعهدهندگان را مجبور میکنند به نمونهبرداریهای هزینهبر روی آوردند.
به نقل از مقالهای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، الگوریتم جدیدی معرفی شده است که از آنتروپی معنایی (Semantic Entropy) مدلهای جایگزین برای لایهبندی مجموعههای ارزیابی استفاده میکند. بر اساس مستندات این پژوهش، جزئیات فنی این متد به شرح زیر است:
- بهرهگیری از تخصیص تقریبی نیمان (Approximate Neyman Allocation) برای اولویتبندی زیرمجموعههای دادهای که بیشترین اطلاعات را ارائه میدهند.
- آزمایش متد بر روی چندین بنچمارک چندوجهی (Multimodal) و زبانی.
- دستیابی به کاهش میانگین ۲۲.۹ درصدی در بودجهی برچسبگذاری نسبت به خطکشهای استاندارد.
برای جامعهی فنی، این دستاورد فرضیهی نیاز به مجموعهدادههای عظیم و «برتفورس» برای ارزیابی مدلهای زاینده را میشکند. با استفاده از مدلهای جایگزین (Surrogate Models) برای هدایت فرآیند تست، آزمایشگاهها میتوانند با نمونههای انسانی بسیار کمتر، به بنچمارکهایی با اطمینان بالا دست یابند. این موضوع بهطور مستقیم مانع ورود به مرحلهی تکرار سریع در فاز مقیاسبندی زمان استنتاج (Test-time scaling) را برمیدارد.
گام بعدی شما
- بررسی پیادهسازی این متد در چارچوبهای ارزیابی متنباز برای سنجش میزان صرفهجویی در دامنههای تخصصی.
- تحلیل امکان بهکارگیری استراتژی تخصیص نیمان در نظارت لحظهای (Real-time monitoring) بر جریانهای کاری عاملمحور (Agentic).
- مقایسه نرخ خطای MSE در مدلهای کوچکتر (SLM) با استفاده از این روش ارزیابی.
اما تأثیر این بهینهسازی بر هزینههای استنتاج در مقیاس صنعتی، ابعاد پیچیدهتری دارد — به تحلیل ما دربارهی بهینهسازی مصرف GPUها مراجعه کنید.




گفتگو