بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

بیشینه کردن احتمال هر تک‌توکن در یک مسیر آموزشی، رویکردی ناقص برای تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning - SFT) است. اگر هنوز مدل‌های خود را صرفاً با هدف تطبیق کامل به داده‌های آموزشی بهینه می‌کنید، احتمالاً بخشی از ظرفیت استدلالی مدل را از دست می‌دهید.

به نقل از مقاله پژوهشی منتشر شده در arxiv.org در تاریخ ۱۰ ژوئن ۲۰۲۶، تطبیق سخت‌گیرانه مدل با اهداف تک‌مقادیری (One-Hot Targets) اغلب پیش‌فرض‌های دانشی غنی را که در وزن‌های پیش‌آموزش (Pre-trained weights) وجود دارند، نادیده می‌گیرد و منجر به عملکرد زیربهینه می‌شود. همان‌طور که در پوشش پیشین ما از چالش‌های همراستاسازی (Alignment) مدل‌های زبانی اشاره کردیم، تضاد بین دانش داخلی مدل و داده‌های آموزشیِ نویزی می‌تواند منجر به تخریب توانمندی‌های مدل شود.

در SFT استاندارد، فرض بر این است که توکن مشاهده‌شده در داده‌های آموزشی، تنها پاسخ درست است؛ اما در واقعیت، داده‌ها اغلب نویزی هستند یا با منطق داخلی مدل همخوانی ندارند. برای حل این مشکل، نویسندگان چارچوب Q-target را معرفی کردند که نظارت بر SFT را از طریق دو انتخاب طراحی صریح بازتعریف می‌کند:

میزان اتکای مدل به توکن مشاهده‌شده در داده‌ها
نحوه تخصیص توده احتمالی باقی‌مانده روی توکن‌های جایگزین

بر اساس این منطق، تیم پژوهشی مدل Target-SFT را توسعه داد که هدف آموزشی را مستقیماً از توزیع هدف مطلوب می‌سازد. طبق گزارش‌های این مقاله، در ارزیابی‌های صورت‌گرفته روی ۱۰ تنظیم مختلف از مدل-داده در مجموعه‌های استدلالی، این رویکرد توزیع‌محور به‌طور مستمر از متدهای سنتی SFT بهتر عمل کرده است.

این دستاورد، اصل طراحی بنیادین در SFT را از «بهینه‌سازی تابع زیان» (Loss Objective) به «طراحی توزیع هدف» تغییر می‌دهد. برای متخصصان فنی، این بدان معناست که «حقیقت مطلق» (Ground Truth) در یک مجموعه‌داده باید به عنوان یک راهنما تلقی شود، نه یک الزام مطلق؛ تا مدل بتواند میان نمایش‌های خارجی و دانش پیشین خود تعادل برقرار کند.

گام بعدی شما

مطالعه فرمول‌بندی کامل Target-SFT و معیارهای ارزیابی در آرکایو برای پیاده‌سازی در مدل‌های تخصصی.
بررسی امکان ادغام این رویکرد توزیع‌محور در خط‌لوله‌های یادگیری تقویت‌شده از بازخورد انسانی (RLHF) برای بهبود مدل‌سازی پاداش.
آزمایش اثر حذف اهداف one-hot بر کاهش نرخ توهم در مدل‌های استدلالی.

اما اثر این تغییر در توزیع‌ها بر هزینه استنتاج در مقیاس بالا هنوز ناشناخته است — به تحلیل ما درباره‌ی بهینه‌سازی‌های سخت‌افزاری در تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

میزان اتکای مدل به توکن مشاهده‌شده در داده‌ها
نحوه تخصیص توده احتمالی باقی‌مانده روی توکن‌های جایگزین

گام بعدی شما

مطالعه فرمول‌بندی کامل Target-SFT و معیارهای ارزیابی در آرکایو برای پیاده‌سازی در مدل‌های تخصصی.
بررسی امکان ادغام این رویکرد توزیع‌محور در خط‌لوله‌های یادگیری تقویت‌شده از بازخورد انسانی (RLHF) برای بهبود مدل‌سازی پاداش.
آزمایش اثر حذف اهداف one-hot بر کاهش نرخ توهم در مدل‌های استدلالی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران