بیشینه کردن احتمال هر تکتوکن در یک مسیر آموزشی، رویکردی ناقص برای تنظیم دقیق نظارتشده (Supervised Fine-Tuning - SFT) است. اگر هنوز مدلهای خود را صرفاً با هدف تطبیق کامل به دادههای آموزشی بهینه میکنید، احتمالاً بخشی از ظرفیت استدلالی مدل را از دست میدهید.
به نقل از مقاله پژوهشی منتشر شده در arxiv.org در تاریخ ۱۰ ژوئن ۲۰۲۶، تطبیق سختگیرانه مدل با اهداف تکمقادیری (One-Hot Targets) اغلب پیشفرضهای دانشی غنی را که در وزنهای پیشآموزش (Pre-trained weights) وجود دارند، نادیده میگیرد و منجر به عملکرد زیربهینه میشود. همانطور که در پوشش پیشین ما از چالشهای همراستاسازی (Alignment) مدلهای زبانی اشاره کردیم، تضاد بین دانش داخلی مدل و دادههای آموزشیِ نویزی میتواند منجر به تخریب توانمندیهای مدل شود.
در SFT استاندارد، فرض بر این است که توکن مشاهدهشده در دادههای آموزشی، تنها پاسخ درست است؛ اما در واقعیت، دادهها اغلب نویزی هستند یا با منطق داخلی مدل همخوانی ندارند. برای حل این مشکل، نویسندگان چارچوب Q-target را معرفی کردند که نظارت بر SFT را از طریق دو انتخاب طراحی صریح بازتعریف میکند:
- میزان اتکای مدل به توکن مشاهدهشده در دادهها
- نحوه تخصیص توده احتمالی باقیمانده روی توکنهای جایگزین
بر اساس این منطق، تیم پژوهشی مدل Target-SFT را توسعه داد که هدف آموزشی را مستقیماً از توزیع هدف مطلوب میسازد. طبق گزارشهای این مقاله، در ارزیابیهای صورتگرفته روی ۱۰ تنظیم مختلف از مدل-داده در مجموعههای استدلالی، این رویکرد توزیعمحور بهطور مستمر از متدهای سنتی SFT بهتر عمل کرده است.
این دستاورد، اصل طراحی بنیادین در SFT را از «بهینهسازی تابع زیان» (Loss Objective) به «طراحی توزیع هدف» تغییر میدهد. برای متخصصان فنی، این بدان معناست که «حقیقت مطلق» (Ground Truth) در یک مجموعهداده باید به عنوان یک راهنما تلقی شود، نه یک الزام مطلق؛ تا مدل بتواند میان نمایشهای خارجی و دانش پیشین خود تعادل برقرار کند.
گام بعدی شما
- مطالعه فرمولبندی کامل Target-SFT و معیارهای ارزیابی در آرکایو برای پیادهسازی در مدلهای تخصصی.
- بررسی امکان ادغام این رویکرد توزیعمحور در خطلولههای یادگیری تقویتشده از بازخورد انسانی (RLHF) برای بهبود مدلسازی پاداش.
- آزمایش اثر حذف اهداف one-hot بر کاهش نرخ توهم در مدلهای استدلالی.
اما اثر این تغییر در توزیعها بر هزینه استنتاج در مقیاس بالا هنوز ناشناخته است — به تحلیل ما دربارهی بهینهسازیهای سختافزاری در تراشههای Blackwell مراجعه کنید.



گفتگو