مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

اگر سیستم‌های یادگیری تقویت‌شده‌ی شما در مواجهه با مسائل پیچیده ناگهان دچار سقوط عملکرد می‌شوند، مشکل احتمالاً در ساختار بیس‌لاین‌های شماست. باید بدانید که وابستگی به یک کپی منجمد از سیاست (Policy) برای کاهش واریانس، نقطه‌ضعفی است که می‌تواند کل فرآیند آموزش را در لحظه‌ای به فنا ببرد.

در مسئله‌ی فروشنده دوره‌گرد (TSP)، این ناپایداری زمانی رخ می‌دهد که بیس‌لاین نمی‌تواند همگام با تکامل سیاست در نمونه‌های سخت پیش برود. بهینه‌سازی سیاست نسبی گروهی (GRPO) با حذف کامل این نیاز، از فروپاشی آموزش در بهینه‌سازی ترکیبی عصبی (NCO) جلوگیری می‌کند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی کارایی در مدل‌های RL اشاره کردیم، حذف لایه‌های زائد معماری همواره به پایداری بیشتر منجر می‌شود.

طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران پنج الگوریتم RL را در چارچوب RL4CO مقایسه کردند. نتایج فنی این بررسی نشان می‌دهد:

در بنچمارک TSP-100، روش REINFORCE دچار فروپاشی شد و هزینه‌ی پاسخ‌ها بلافاصله پس از مرحله گرم‌کردن (Warmup) از ۹.۸ به ۵۲.۱ جهش کرد؛ در حالی که GRPO پایداری خود را حفظ کرد.
کیفیت پاسخ‌های GRPO در حاشیه ۲٪ نسبت به POMO قرار دارد که یک بیس‌لاین چند-شروع بسیار کارآمد است.
الگوریتم P3O نیز در TSP رقابتی بود، اما در مسائل مسیریابی خودرو با ظرفیت محدود (CVRP) نوسانات بیشتری نشان داد.

به نقل از مستندات این پژوهش، این تحول نشان می‌دهد که تکنیک‌های توسعه‌یافته برای همراستاسازی (Alignment) در مدل‌های زبانی بزرگ (LLM) — به‌ویژه نرمال‌سازی مزایا در گروه‌های مسیرهای نمونه‌برداری‌شده — به‌طور مستقیم در بهینه‌سازی ترکیبی گسسته قابل استفاده هستند. با حذف بیس‌لاین خارجی، پیچیدگی معماری کاهش یافته و شکنندگی مدل‌های مسیریابی در مقیاس بالا تعدیل می‌شود.

گام بعدی شما

ارزیابی کنید که آیا استفاده از مزایای نسبی گروهی (Group-relative advantages) می‌تواند سایر وظایف RL با واریانس بالا را تثبیت کند یا خیر.
بررسی کنید که آیا حذف Baselineهای سنتی، سرعت همگرایی مدل شما را در محیط‌های پیچیده افزایش می‌دهد.
دنبال کنید که آیا این روش‌ها می‌توانند محدودیت‌های چندگانه در مسیریابی خودرو را بدون افت کیفیت پاسخ مدیریت کنند.

این تنها بخشی از اثر متقاطع تکنیک‌های همراستاسازی است؛ بررسی اینکه چگونه استدلال‌های زنجیره‌ای می‌توانند دقت NCO را بالا ببرند، در گزارش بعدی ما خواهد بود.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

در بنچمارک TSP-100، روش REINFORCE دچار فروپاشی شد و هزینه‌ی پاسخ‌ها بلافاصله پس از مرحله گرم‌کردن (Warmup) از ۹.۸ به ۵۲.۱ جهش کرد؛ در حالی که GRPO پایداری خود را حفظ کرد.
کیفیت پاسخ‌های GRPO در حاشیه ۲٪ نسبت به POMO قرار دارد که یک بیس‌لاین چند-شروع بسیار کارآمد است.
الگوریتم P3O نیز در TSP رقابتی بود، اما در مسائل مسیریابی خودرو با ظرفیت محدود (CVRP) نوسانات بیشتری نشان داد.

گام بعدی شما

ارزیابی کنید که آیا استفاده از مزایای نسبی گروهی (Group-relative advantages) می‌تواند سایر وظایف RL با واریانس بالا را تثبیت کند یا خیر.
بررسی کنید که آیا حذف Baselineهای سنتی، سرعت همگرایی مدل شما را در محیط‌های پیچیده افزایش می‌دهد.
دنبال کنید که آیا این روش‌ها می‌توانند محدودیت‌های چندگانه در مسیریابی خودرو را بدون افت کیفیت پاسخ مدیریت کنند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران