اگر سیستمهای یادگیری تقویتشدهی شما در مواجهه با مسائل پیچیده ناگهان دچار سقوط عملکرد میشوند، مشکل احتمالاً در ساختار بیسلاینهای شماست. باید بدانید که وابستگی به یک کپی منجمد از سیاست (Policy) برای کاهش واریانس، نقطهضعفی است که میتواند کل فرآیند آموزش را در لحظهای به فنا ببرد.
در مسئلهی فروشنده دورهگرد (TSP)، این ناپایداری زمانی رخ میدهد که بیسلاین نمیتواند همگام با تکامل سیاست در نمونههای سخت پیش برود. بهینهسازی سیاست نسبی گروهی (GRPO) با حذف کامل این نیاز، از فروپاشی آموزش در بهینهسازی ترکیبی عصبی (NCO) جلوگیری میکند. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی کارایی در مدلهای RL اشاره کردیم، حذف لایههای زائد معماری همواره به پایداری بیشتر منجر میشود.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران پنج الگوریتم RL را در چارچوب RL4CO مقایسه کردند. نتایج فنی این بررسی نشان میدهد:
- در بنچمارک TSP-100، روش REINFORCE دچار فروپاشی شد و هزینهی پاسخها بلافاصله پس از مرحله گرمکردن (Warmup) از ۹.۸ به ۵۲.۱ جهش کرد؛ در حالی که GRPO پایداری خود را حفظ کرد.
- کیفیت پاسخهای GRPO در حاشیه ۲٪ نسبت به POMO قرار دارد که یک بیسلاین چند-شروع بسیار کارآمد است.
- الگوریتم P3O نیز در TSP رقابتی بود، اما در مسائل مسیریابی خودرو با ظرفیت محدود (CVRP) نوسانات بیشتری نشان داد.
به نقل از مستندات این پژوهش، این تحول نشان میدهد که تکنیکهای توسعهیافته برای همراستاسازی (Alignment) در مدلهای زبانی بزرگ (LLM) — بهویژه نرمالسازی مزایا در گروههای مسیرهای نمونهبرداریشده — بهطور مستقیم در بهینهسازی ترکیبی گسسته قابل استفاده هستند. با حذف بیسلاین خارجی، پیچیدگی معماری کاهش یافته و شکنندگی مدلهای مسیریابی در مقیاس بالا تعدیل میشود.
گام بعدی شما
- ارزیابی کنید که آیا استفاده از مزایای نسبی گروهی (Group-relative advantages) میتواند سایر وظایف RL با واریانس بالا را تثبیت کند یا خیر.
- بررسی کنید که آیا حذف Baselineهای سنتی، سرعت همگرایی مدل شما را در محیطهای پیچیده افزایش میدهد.
- دنبال کنید که آیا این روشها میتوانند محدودیتهای چندگانه در مسیریابی خودرو را بدون افت کیفیت پاسخ مدیریت کنند.
این تنها بخشی از اثر متقاطع تکنیکهای همراستاسازی است؛ بررسی اینکه چگونه استدلالهای زنجیرهای میتوانند دقت NCO را بالا ببرند، در گزارش بعدی ما خواهد بود.



گفتگو