گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

باید بدانید که مسیر رسیدن به کدنویسی خودگردان، نه در یافتن پاسخ‌های درست، بلکه در تسلط بر هنر اصلاح خطاها نهفته است. اگر هنوز تصور می‌کنید مدل‌های زبانی باید فقط از داده‌های موفق یاد بگیرند، با یک پارادایم جدید روبرو هستید.

به نقل از گزارش مورخ ۱۲ مه ۲۰۲۶ در arXiv، متدولوژی جدیدی به نام تنظیم دقیق رد گام‌ها (Step Rejection Fine-Tuning یا SRFT) توانسته است نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ برساند. این دستاورد از طریق تغییر بنیادین در نحوه یادگیری مدل از شکست‌ها به دست آمده است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های همراستاسازی (Alignment) مدل‌های استدلالی اشاره کردیم، مدل‌ها اغلب در مواجهه با خطاهای زنجیره‌ای دچار فروپاشی می‌شوند. در روش‌های سنتی مانند تنظیم دقیق رد (Rejection Fine-Tuning یا RFT)، هر مسیری که به پاسخ نهایی درست نرسد، به عنوان «نویز» حذف می‌شد. اما در دنیای مهندسی نرم‌افزار، این «نزدیک-به-موفق‌ها» حاوی ارزشمندترین درس‌ها برای بازیابی از خطا هستند.

طبق مستندات این پژوهش، سازوکار SRFT بر پایه منطق زیر بنا شده است:

استفاده از یک مدل زبانی بزرگ (LLM) منتقد برای ارزیابی صحت هر گام به‌صورت مجزا.
ماسک کردن ضرر (Loss Masking) برای گام‌های اشتباه تا مدل از تکرار خطا بازداشته شود.
حفظ گام‌های خطا در پنجره متنی (Context Window) برای ارائه نقشه‌راه بازیابی به مدل.

بررسی‌ها نشان می‌دهد در حالی که RFT استاندارد تنها ۲.۴٪ بهبود ایجاد کرد، SRFT با فیلتر کردن گام‌ها به جای حذف کل مسیر، افزایشی ۳.۷ درصدی در نرخ موفقیت ایجاد کرد.

این رویکرد، یادگیری را از حالت «فقط موفقیت» به «آگاه از خطا» تغییر می‌دهد. با بهره‌گیری از مسیرهای ناموفق، توسعه‌دهندگان می‌توانند تراکم داده‌های آموزشی مفید را برای سخت‌ترین وظایف به‌طور چشم‌گیری افزایش دهند.

گام بعدی شما

بررسی کاربرد ماسک‌گذاری گام‌ها در وظایف استدلالی غیرکدنویسی مانند ریاضیات پیچیده.
مطالعه جزئیات فنی پیاده‌سازی مدل منتقد در گزارش کامل arXiv.
تست مدل‌های باز-وزن برای شناسایی نقاط شکست در زنجیره تفکر.

اما تأثیر این رویکرد بر کاهش هزینه‌های استنتاج (Inference) در مقیاس صنعتی، موضوع دیگری است که در گزارش‌های آتی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق مستندات این پژوهش، سازوکار SRFT بر پایه منطق زیر بنا شده است:

استفاده از یک مدل زبانی بزرگ (LLM) منتقد برای ارزیابی صحت هر گام به‌صورت مجزا.
ماسک کردن ضرر (Loss Masking) برای گام‌های اشتباه تا مدل از تکرار خطا بازداشته شود.
حفظ گام‌های خطا در پنجره متنی (Context Window) برای ارائه نقشه‌راه بازیابی به مدل.

گام بعدی شما

بررسی کاربرد ماسک‌گذاری گام‌ها در وظایف استدلالی غیرکدنویسی مانند ریاضیات پیچیده.
مطالعه جزئیات فنی پیاده‌سازی مدل منتقد در گزارش کامل arXiv.
تست مدل‌های باز-وزن برای شناسایی نقاط شکست در زنجیره تفکر.

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران