تصور کنید مدل شما به پاسخ درست میرسد، اما تمام مسیر رسیدن به آن پاسخ کاملاً غلط است؛ در حال حاضر، اکثر مدلهای زبانی این شکست را به عنوان یک پیروزی جشن میگیرند. اگر هنوز فکر میکنید پاسخ درست تنها معیار موفقیت یک مدل استدلالی (Reasoning Model) است، باید بدانید که این باور، بزرگترین مانع پیش روی تکامل هوش مصنوعی است.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران چارچوب EP-GRPO (بهینهسازی سیاست نسبی گروهی همراستا با پیشرفت و آنتروپی) را برای حل بحران «شکست تخصیص اعتبار» معرفی کردهاند. طبق اعلام این تیم، روشهای استاندارد GRPO از سه نقص بحرانی رنج میبرند: نادیده گرفتن ارزش اطلاعاتی در سطح توکن، پاداش دادن به گامهای اشتباه (به دلیل همراستایی نادرست قطبیت) و فروپاشی واریانس صفر که باعث حذف گرادیانها میشود.
برای مقابله با این مشکلات، EP-GRPO یک استراتژی سهگانه را پیاده میکند:
- مدولاسیون گیتدار آنتروپی (Entropy-gated modulation) برای اولویتبندی نقاط تصمیمگیر حساس.
- سیگنالهای فرآیندی ضمنی (Implicit process signals) برای ارائه بازخورد در سطح توکن بدون نیاز به مدلهای پاداش خارجی.
- نگاشت آنتروپی تجمعی برای حفظ جریان گرادیان در شرایطی که واریانس پاداش صفر است.
همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی (Alignment) مدلهای استدلالی اشاره کردیم، مشکل اصلی همواره در تفکیک گامهای درست از «خوششانسی» بوده است. EP-GRPO با بهرهگیری از جریان اطلاعات داخلی مدل، امکان یادگیری خود-نظارتی را فراهم میکند. در آزمایشهای گسترده روی بنچمارکهای ریاضی، این مدل کارایی و دقتی بسیار فراتر از نسخههای اولیه GRPO نشان داده است.
این تحول، گامی بلند به سوی سیستمهای یادگیری تقویتشده با پاداشهای قابل تأیید (RLVR) است که به جای تکیه بر مدلهای پاداش گرانقیمت، بر اصلاح خودکار متکی هستند.
اما این تنها بخشی از معماست؛ آیا این سیگنالهای ضمنی میتوانند استدلالهای پیچیده انسانی را هم شبیهسازی کنند؟ در گزارش بعدی به بررسی مقیاسپذیری این روش میپردازیم.
گام بعدی شما
- مقاله کامل EP-GRPO را در Arxiv مطالعه کنید تا با جزئیات ریاضی مدولاسیون آنتروپی آشنا شوید.
- اگر از مدلهای GRPO برای آموزش استفاده میکنید، اثر «فروپاشی واریانس صفر» را در لاگهای خود بررسی کنید.
- منتظر انتشار کد بازمنبع این پروژه باشید تا آن را روی دادههای تخصصی خود آزمایش کنید.
گفتگو