باید بدانید که بسیاری از تلاشهای محاسباتی برای انتخاب دادههای باکیفیت در آموزش مدلها، در نهایت به نتیجهای نمیرسند که با یک انتخاب تصادفی ساده متفاوت باشد. اگر هنوز بر روی روشهای سنتی ارزشگذاری دادهها سرمایهگذاری میکنید، احتمالاً با یک بنبست فنی روبرو هستید.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مجموعههای آموزشی اشاره کردیم، شناسایی زیرمجموعههای باکیفیت برای افزایش کارایی مدلها حیاتی است. اما تعامل پیچیده میان نقاط داده باعث میشود توابع مطلوبیت (Utility Functions) برای روشهای استاندارد نیممقادیر (Semivalues) بیش از حد پیچیده شوند. همین شکاف باعث شده تا متخصصان این پرسش را مطرح کنند که آیا هزینه محاسباتی روشهای مبتنی بر شپلی واقعاً ارزش دستاوردهای اندک آن نسبت به نمونهبرداری تصادفی را دارد یا خیر.
طبق گزارش منتشر شده در arXiv.org در تاریخ ۱۲ می ۲۰۲۶، چارچوب NASH (تجمیع غیرخطی مؤلفههای اطلاعاتبخش شپلی) برای پایان دادن به این ناهماهنگی طراحی شده است. این سازوکار در دو مرحله عمل میکند:
- ابتدا تابع مطلوبیت هدف (مانند دقت اعتبارسنجی) را به توابع مؤلفهای سادهتر و «اطلاعاتبخش شپلی» تجزیه میکند.
- سپس این مؤلفهها را با استفاده از یک هدف غیرخطی برای بهینهسازی انتخاب دادهها تجمیع میکند.
به نقل از نویسندگان این مقاله، این رویکرد اثربخشی انتخابهای مبتنی بر نیممقدار را بهطور قابلتوجهی افزایش میدهد، هرچند در چکیده مقاله درصد دقیق این بهبود ذکر نشده است.
برای جامعه فنی، این یک چرخش راهبردی است؛ تمرکز از «محاسبه صرف» مقادیر شپلی به «نحوه تجمیع» آنها تغییر میکند. NASH ثابت میکند که شکست دیتا شپلی (Data Shapley) نه در خودِ مقادیر، بلکه در روش خطیِ سنتی برای بهکارگیری آنها در توابع پیچیده بوده است.
گام بعدی شما
- پژوهشگران باید NASH را روی مجموعهدادههای مقیاسبزرگ آزمایش کنند تا مشخص شود آیا هزینه زمان اجرای پایین در مقیاسهای وسیع حفظ میشود یا خیر.
- بررسی مستندات فنی کامل این روش در آرکایو برای پیادهسازی در خط لولههای (Pipelines) پاکسازی داده.
- مقایسه نتایج NASH با روشهای جدیدتر هرس دادهها (Data Pruning).
اما داستان سختافزاری این تحول و نیاز به قدرت پردازشی برای این تجمیعها حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو