چرا تجمیع غیرخطی در NASH، انتخاب داده‌ها را از شانس تصادفی نجات می‌دهد؟

باید بدانید که بسیاری از تلاش‌های محاسباتی برای انتخاب داده‌های باکیفیت در آموزش مدل‌ها، در نهایت به نتیجه‌ای نمی‌رسند که با یک انتخاب تصادفی ساده متفاوت باشد. اگر هنوز بر روی روش‌های سنتی ارزش‌گذاری داده‌ها سرمایه‌گذاری می‌کنید، احتمالاً با یک بن‌بست فنی روبرو هستید.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مجموعه‌های آموزشی اشاره کردیم، شناسایی زیرمجموعه‌های باکیفیت برای افزایش کارایی مدل‌ها حیاتی است. اما تعامل پیچیده میان نقاط داده باعث می‌شود توابع مطلوبیت (Utility Functions) برای روش‌های استاندارد نیم‌مقادیر (Semivalues) بیش از حد پیچیده شوند. همین شکاف باعث شده تا متخصصان این پرسش را مطرح کنند که آیا هزینه محاسباتی روش‌های مبتنی بر شپلی واقعاً ارزش دستاوردهای اندک آن نسبت به نمونه‌برداری تصادفی را دارد یا خیر.

طبق گزارش منتشر شده در arXiv.org در تاریخ ۱۲ می ۲۰۲۶، چارچوب NASH (تجمیع غیرخطی مؤلفه‌های اطلاعات‌بخش شپلی) برای پایان دادن به این ناهماهنگی طراحی شده است. این سازوکار در دو مرحله عمل می‌کند:

ابتدا تابع مطلوبیت هدف (مانند دقت اعتبارسنجی) را به توابع مؤلفه‌ای ساده‌تر و «اطلاعات‌بخش شپلی» تجزیه می‌کند.
سپس این مؤلفه‌ها را با استفاده از یک هدف غیرخطی برای بهینه‌سازی انتخاب داده‌ها تجمیع می‌کند.

به نقل از نویسندگان این مقاله، این رویکرد اثربخشی انتخاب‌های مبتنی بر نیم‌مقدار را به‌طور قابل‌توجهی افزایش می‌دهد، هرچند در چکیده مقاله درصد دقیق این بهبود ذکر نشده است.

برای جامعه فنی، این یک چرخش راهبردی است؛ تمرکز از «محاسبه صرف» مقادیر شپلی به «نحوه تجمیع» آن‌ها تغییر می‌کند. NASH ثابت می‌کند که شکست دیتا شپلی (Data Shapley) نه در خودِ مقادیر، بلکه در روش خطیِ سنتی برای به‌کارگیری آن‌ها در توابع پیچیده بوده است.

گام بعدی شما

پژوهشگران باید NASH را روی مجموعه‌داده‌های مقیاس‌بزرگ آزمایش کنند تا مشخص شود آیا هزینه زمان اجرای پایین در مقیاس‌های وسیع حفظ می‌شود یا خیر.
بررسی مستندات فنی کامل این روش در آرکایو برای پیاده‌سازی در خط لوله‌های (Pipelines) پاک‌سازی داده.
مقایسه نتایج NASH با روش‌های جدیدتر هرس داده‌ها (Data Pruning).

اما داستان سخت‌افزاری این تحول و نیاز به قدرت پردازشی برای این تجمیع‌ها حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ابتدا تابع مطلوبیت هدف (مانند دقت اعتبارسنجی) را به توابع مؤلفه‌ای ساده‌تر و «اطلاعات‌بخش شپلی» تجزیه می‌کند.
سپس این مؤلفه‌ها را با استفاده از یک هدف غیرخطی برای بهینه‌سازی انتخاب داده‌ها تجمیع می‌کند.

گام بعدی شما

پژوهشگران باید NASH را روی مجموعه‌داده‌های مقیاس‌بزرگ آزمایش کنند تا مشخص شود آیا هزینه زمان اجرای پایین در مقیاس‌های وسیع حفظ می‌شود یا خیر.
بررسی مستندات فنی کامل این روش در آرکایو برای پیاده‌سازی در خط لوله‌های (Pipelines) پاک‌سازی داده.
مقایسه نتایج NASH با روش‌های جدیدتر هرس داده‌ها (Data Pruning).

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تجمیع غیرخطی در NASH، انتخاب داده‌ها را از شانس تصادفی نجات می‌دهد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تجمیع غیرخطی در NASH، انتخاب داده‌ها را از شانس تصادفی نجات می‌دهد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تجمیع غیرخطی در NASH، انتخاب داده‌ها را از شانس تصادفی نجات می‌دهد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا تجمیع غیرخطی در NASH، انتخاب داده‌ها را از شانس تصادفی نجات می‌دهد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران