باید بدانید که مسیر رسیدن به کدنویسی خودگردان، نه در یافتن پاسخهای درست، بلکه در تسلط بر هنر اصلاح خطاها نهفته است. اگر هنوز تصور میکنید مدلهای زبانی باید فقط از دادههای موفق یاد بگیرند، با یک پارادایم جدید روبرو هستید.
به نقل از گزارش مورخ ۱۲ مه ۲۰۲۶ در arXiv، متدولوژی جدیدی به نام تنظیم دقیق رد گامها (Step Rejection Fine-Tuning یا SRFT) توانسته است نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ برساند. این دستاورد از طریق تغییر بنیادین در نحوه یادگیری مدل از شکستها به دست آمده است.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای همراستاسازی (Alignment) مدلهای استدلالی اشاره کردیم، مدلها اغلب در مواجهه با خطاهای زنجیرهای دچار فروپاشی میشوند. در روشهای سنتی مانند تنظیم دقیق رد (Rejection Fine-Tuning یا RFT)، هر مسیری که به پاسخ نهایی درست نرسد، به عنوان «نویز» حذف میشد. اما در دنیای مهندسی نرمافزار، این «نزدیک-به-موفقها» حاوی ارزشمندترین درسها برای بازیابی از خطا هستند.
طبق مستندات این پژوهش، سازوکار SRFT بر پایه منطق زیر بنا شده است:
- استفاده از یک مدل زبانی بزرگ (LLM) منتقد برای ارزیابی صحت هر گام بهصورت مجزا.
- ماسک کردن ضرر (Loss Masking) برای گامهای اشتباه تا مدل از تکرار خطا بازداشته شود.
- حفظ گامهای خطا در پنجره متنی (Context Window) برای ارائه نقشهراه بازیابی به مدل.
بررسیها نشان میدهد در حالی که RFT استاندارد تنها ۲.۴٪ بهبود ایجاد کرد، SRFT با فیلتر کردن گامها به جای حذف کل مسیر، افزایشی ۳.۷ درصدی در نرخ موفقیت ایجاد کرد.
این رویکرد، یادگیری را از حالت «فقط موفقیت» به «آگاه از خطا» تغییر میدهد. با بهرهگیری از مسیرهای ناموفق، توسعهدهندگان میتوانند تراکم دادههای آموزشی مفید را برای سختترین وظایف بهطور چشمگیری افزایش دهند.
گام بعدی شما
- بررسی کاربرد ماسکگذاری گامها در وظایف استدلالی غیرکدنویسی مانند ریاضیات پیچیده.
- مطالعه جزئیات فنی پیادهسازی مدل منتقد در گزارش کامل arXiv.
- تست مدلهای باز-وزن برای شناسایی نقاط شکست در زنجیره تفکر.
اما تأثیر این رویکرد بر کاهش هزینههای استنتاج (Inference) در مقیاس صنعتی، موضوع دیگری است که در گزارشهای آتی بررسی خواهیم کرد.
گفتگو