باید بدانید که رویکرد «هرچه بیشتر، بهتر» در تقطیر مدلهای زبانی، یک توهم است که میتواند استدلال مدل شما را تخریب کند. اگر هنوز از روشهای تقطیر متراکم برای بهبود مدلهای استدلالی استفاده میکنید، احتمالاً در حال کاهش ناخودآگاه دقت مدل در مواجهه با دادههای جدید هستید.
صنعت هوش مصنوعی برای ساخت مدلهای استدلالی به شدت بر یادگیری تقویتشده با پاداشهای قابلتأیید (RLVR) و بهینهسازی سیاست نسبی گروهی (GRPO) تکیه کرده است. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای استدلالی اشاره کردیم، این روشها هنگام استفاده از تقطیر خود-سیاستی (on-policy self-distillation) با مشکلی به نام «نشت اطلاعات ممتاز» (privileged-information leakage) مواجه میشوند که منجر به کوتاهتر شدن زنجیرههای تفکر و افت عملکرد در دادههای خارج از توزیع (OOD) میشود.
طبق مستندات منتشرشده در ۱۱ مه ۲۰۲۶ در arxiv.org، چارچوب TRACE برای حل این مشکل، واگرایی KL (KL divergence) روی تمام توکنها را با یک رویکرد مسیریابیشده جایگزین میکند. بر اساس این مقاله، TRACE سه استراتژی را به کار میگیرد:
- اعمال Forward KL روی بازههای حیاتی که توسط تحلیلگر علامتگذاری شدهاند.
- اعمال اختیاری Reverse KL روی بازههای دارای خطا.
- استفاده از GRPO برای تمامی توکنهای باقیمانده.
پژوهشگران دریافتند که استراتژی بهینه به مقیاس مدل بستگی دارد؛ به گونهای که مدل Qwen3-8B بیشترین بهره را از Forward KL برد، در حالی که مدل Qwen3-1.7B به سمت Reverse KL در بازههای خطا متمایل شد. نکته کلیدی این است که TRACE برخلاف GRPO، امتیاز پایه در بنچمارک GPQA-Diamond را حفظ کرد.
این تغییر پارادایم نشان میدهد که نظارت پراکنده اما باکیفیت، بسیار مؤثرتر از سیگنالهای متراکم و نویزی است. برای متخصصان، این بدان معناست که تمرکز باید از «پوشش کامل توکنها» به «شناسایی دقیق گامهای استدلالی حیاتی» تغییر کند.
گام بعدی شما
- بررسی متدولوژی TRACE برای بهینهسازی مدلهای زبانی کوچک (SLM) جهت جلوگیری از تخریب استدلال.
- جایگزینی تقطیر سراسری با تقطیر مسیریابیشده در خطلولههای آموزش مدلهای ریاضی.
- تحلیل اثر ماسک کردن توکنهای زائد بر هزینه استنتاج در مقیاس بالا.
این تنها آغاز ماجراست؛ اثر این رویکرد بر کاهش هزینههای محاسباتی در مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.




گفتگو