گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

باید بدانید که رویکرد «هرچه بیشتر، بهتر» در تقطیر مدل‌های زبانی، یک توهم است که می‌تواند استدلال مدل شما را تخریب کند. اگر هنوز از روش‌های تقطیر متراکم برای بهبود مدل‌های استدلالی استفاده می‌کنید، احتمالاً در حال کاهش ناخودآگاه دقت مدل در مواجهه با داده‌های جدید هستید.

صنعت هوش مصنوعی برای ساخت مدل‌های استدلالی به شدت بر یادگیری تقویت‌شده با پاداش‌های قابل‌تأیید (RLVR) و بهینه‌سازی سیاست نسبی گروهی (GRPO) تکیه کرده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی اشاره کردیم، این روش‌ها هنگام استفاده از تقطیر خود-سیاستی (on-policy self-distillation) با مشکلی به نام «نشت اطلاعات ممتاز» (privileged-information leakage) مواجه می‌شوند که منجر به کوتاه‌تر شدن زنجیره‌های تفکر و افت عملکرد در داده‌های خارج از توزیع (OOD) می‌شود.

طبق مستندات منتشرشده در ۱۱ مه ۲۰۲۶ در arxiv.org، چارچوب TRACE برای حل این مشکل، واگرایی KL (KL divergence) روی تمام توکن‌ها را با یک رویکرد مسیریابی‌شده جایگزین می‌کند. بر اساس این مقاله، TRACE سه استراتژی را به کار می‌گیرد:

اعمال Forward KL روی بازه‌های حیاتی که توسط تحلیل‌گر علامت‌گذاری شده‌اند.
اعمال اختیاری Reverse KL روی بازه‌های دارای خطا.
استفاده از GRPO برای تمامی توکن‌های باقی‌مانده.

پژوهشگران دریافتند که استراتژی بهینه به مقیاس مدل بستگی دارد؛ به گونه‌ای که مدل Qwen3-8B بیشترین بهره را از Forward KL برد، در حالی که مدل Qwen3-1.7B به سمت Reverse KL در بازه‌های خطا متمایل شد. نکته کلیدی این است که TRACE برخلاف GRPO، امتیاز پایه در بنچمارک GPQA-Diamond را حفظ کرد.

این تغییر پارادایم نشان می‌دهد که نظارت پراکنده اما باکیفیت، بسیار مؤثرتر از سیگنال‌های متراکم و نویزی است. برای متخصصان، این بدان معناست که تمرکز باید از «پوشش کامل توکن‌ها» به «شناسایی دقیق گام‌های استدلالی حیاتی» تغییر کند.

گام بعدی شما

بررسی متدولوژی TRACE برای بهینه‌سازی مدل‌های زبانی کوچک (SLM) جهت جلوگیری از تخریب استدلال.
جایگزینی تقطیر سراسری با تقطیر مسیریابی‌شده در خط‌لوله‌های آموزش مدل‌های ریاضی.
تحلیل اثر ماسک کردن توکن‌های زائد بر هزینه استنتاج در مقیاس بالا.

این تنها آغاز ماجراست؛ اثر این رویکرد بر کاهش هزینه‌های محاسباتی در مدل‌های بازمتن را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

اعمال Forward KL روی بازه‌های حیاتی که توسط تحلیل‌گر علامت‌گذاری شده‌اند.
اعمال اختیاری Reverse KL روی بازه‌های دارای خطا.
استفاده از GRPO برای تمامی توکن‌های باقی‌مانده.

گام بعدی شما

بررسی متدولوژی TRACE برای بهینه‌سازی مدل‌های زبانی کوچک (SLM) جهت جلوگیری از تخریب استدلال.
جایگزینی تقطیر سراسری با تقطیر مسیریابی‌شده در خط‌لوله‌های آموزش مدل‌های ریاضی.
تحلیل اثر ماسک کردن توکن‌های زائد بر هزینه استنتاج در مقیاس بالا.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران