چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

بهینه‌سازی سیاست‌های مدل زبانی بزرگ (LLM) دیگر یک مجموعه‌ی پراکنده از ترفندهای تجربی نیست، بلکه به یک سیستم مختصاتی ریاضی تبدیل شده است. طبق مستندات پژوهشی که در ۱۶ ژوئن ۲۰۲۶ در arXiv منتشر شد، اکنون می‌توان هر الگوریتم بهینه‌سازی — از REINFORCE گرفته تا GRPO — را روی دو محور مشخص «احتمال مسیر» و «پاداش» ترسیم کرد.

این تحول در حالی رخ می‌دهد که صنعت از رابط‌های ساده‌ی چت به سمت قابلیت‌های عامل‌محور (Agentic) و استفاده از ابزار در چند مرحله حرکت می‌کند. همان‌طور که در تحلیل قبلی ما درباره‌ی Tensor-Coord و رویکرد آن به تجزیه جبری برای حل تداخلات برنامه‌ریزی اشاره کردیم، برای عبور از بن‌بست‌های فعلی در استدلال، نیاز به درک ریاضیِ زیربنایی شکست‌ها داریم.

به نقل از تیم پژوهشی به رهبری Jianghan Shen، تابع هدف $J(\theta)$ به دو مؤلفه‌ی مجزا تجزیه می‌شود:

بخش مسیر (Trajectory Side): که توسط احتمال مسیر $p_{ heta}(\tau)$ ایجاد می‌شود.
بخش پاداش (Reward Side): که توسط مقدار پاداش $R(\tau)$ تعیین می‌شود.

این نقشه ریاضی، گذار از PPO به GRPO و نسخه‌های تکامل‌یافته مانند GRPO-OPD را پوشش می‌دهد. نکته‌ی کلیدی این پژوهش شناسایی «شکست‌های ترکیبی» (Compound Failures) است؛ سناریوهایی که در آن‌ها صرفاً اصلاح تابع پاداش برای حل مسئله کافی نیست و باید هر دو محور مسیر و پاداش به‌طور هم‌زمان بازطراحی شوند.

این رویکرد، همراستاسازی از بازخورد انسانی (RLHF) را از یک فرآیند آزمون و خطا به یک علم تشخیصی تبدیل می‌کند. با تعیین دقیق نقطه‌ی اثر الگوریتم در تخمین‌گر گرادیان، پژوهشگران می‌توانند حالت‌های شکست را پیش از شروع آموزش پیش‌بینی کنند. به باور تحلیلگران، عصر «پس از GRPO» به سمت طراحی‌های هیبریدی حرکت خواهد کرد تا استهلاک در قابلیت‌های استدلالی مدل‌ها را متوقف کند.

گام بعدی شما

خط لوله‌های RLHF فعلی خود را بر اساس این نقشه دو-محوره ارزیابی کنید تا بفهمید آیا «پاداش‌-هکینگ» (Reward Hacking) شما در واقع یک شکست در بخش مسیر است یا خیر.
پیاده‌سازی‌های جدید RL عامل‌محور را که برای برنامه‌ریزی‌های بلندمدت از اصول طراحی مشترک مسیر-پاداش استفاده می‌کنند، دنبال کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این بهینه‌سازی‌ها بر مصرف انرژی در تراشه‌های نسل بعدی را در تحلیل ما درباره‌ی معماری Blackwell بررسی کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از تیم پژوهشی به رهبری Jianghan Shen، تابع هدف $J(\theta)$ به دو مؤلفه‌ی مجزا تجزیه می‌شود:

بخش مسیر (Trajectory Side): که توسط احتمال مسیر $p_{ heta}(\tau)$ ایجاد می‌شود.
بخش پاداش (Reward Side): که توسط مقدار پاداش $R(\tau)$ تعیین می‌شود.

گام بعدی شما

خط لوله‌های RLHF فعلی خود را بر اساس این نقشه دو-محوره ارزیابی کنید تا بفهمید آیا «پاداش‌-هکینگ» (Reward Hacking) شما در واقع یک شکست در بخش مسیر است یا خیر.
پیاده‌سازی‌های جدید RL عامل‌محور را که برای برنامه‌ریزی‌های بلندمدت از اصول طراحی مشترک مسیر-پاداش استفاده می‌کنند، دنبال کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران