بهینهسازی سیاستهای مدل زبانی بزرگ (LLM) دیگر یک مجموعهی پراکنده از ترفندهای تجربی نیست، بلکه به یک سیستم مختصاتی ریاضی تبدیل شده است. طبق مستندات پژوهشی که در ۱۶ ژوئن ۲۰۲۶ در arXiv منتشر شد، اکنون میتوان هر الگوریتم بهینهسازی — از REINFORCE گرفته تا GRPO — را روی دو محور مشخص «احتمال مسیر» و «پاداش» ترسیم کرد.
این تحول در حالی رخ میدهد که صنعت از رابطهای سادهی چت به سمت قابلیتهای عاملمحور (Agentic) و استفاده از ابزار در چند مرحله حرکت میکند. همانطور که در تحلیل قبلی ما دربارهی Tensor-Coord و رویکرد آن به تجزیه جبری برای حل تداخلات برنامهریزی اشاره کردیم، برای عبور از بنبستهای فعلی در استدلال، نیاز به درک ریاضیِ زیربنایی شکستها داریم.
به نقل از تیم پژوهشی به رهبری Jianghan Shen، تابع هدف $J(\theta)$ به دو مؤلفهی مجزا تجزیه میشود:
- بخش مسیر (Trajectory Side): که توسط احتمال مسیر $p_{ heta}(\tau)$ ایجاد میشود.
- بخش پاداش (Reward Side): که توسط مقدار پاداش $R(\tau)$ تعیین میشود.
این نقشه ریاضی، گذار از PPO به GRPO و نسخههای تکاملیافته مانند GRPO-OPD را پوشش میدهد. نکتهی کلیدی این پژوهش شناسایی «شکستهای ترکیبی» (Compound Failures) است؛ سناریوهایی که در آنها صرفاً اصلاح تابع پاداش برای حل مسئله کافی نیست و باید هر دو محور مسیر و پاداش بهطور همزمان بازطراحی شوند.
این رویکرد، همراستاسازی از بازخورد انسانی (RLHF) را از یک فرآیند آزمون و خطا به یک علم تشخیصی تبدیل میکند. با تعیین دقیق نقطهی اثر الگوریتم در تخمینگر گرادیان، پژوهشگران میتوانند حالتهای شکست را پیش از شروع آموزش پیشبینی کنند. به باور تحلیلگران، عصر «پس از GRPO» به سمت طراحیهای هیبریدی حرکت خواهد کرد تا استهلاک در قابلیتهای استدلالی مدلها را متوقف کند.
گام بعدی شما
- خط لولههای RLHF فعلی خود را بر اساس این نقشه دو-محوره ارزیابی کنید تا بفهمید آیا «پاداش-هکینگ» (Reward Hacking) شما در واقع یک شکست در بخش مسیر است یا خیر.
- پیادهسازیهای جدید RL عاملمحور را که برای برنامهریزیهای بلندمدت از اصول طراحی مشترک مسیر-پاداش استفاده میکنند، دنبال کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این بهینهسازیها بر مصرف انرژی در تراشههای نسل بعدی را در تحلیل ما دربارهی معماری Blackwell بررسی کنید.




گفتگو