تصور کنید مدل زبانی شما هرگز نتواند باهوشتر از کسی شود که امتحانش را تصحیح میکند. این همان «گلوگاه داور» است که تا امروز تکامل خودکار مدلها را متوقف کرده بود.
بر اساس مستندات پژوهشی منتشرشده در ۱۲ مه ۲۰۲۶، چارچوب G-Zero این سقف را میشکند. در حالی که تکامل خودکار در حوزههای قابلراستیآزمایی مثل ریاضیات جواب میدهد، در تولیدات باز (Open-ended) معمولاً به یک مدل برتر نیاز است تا سیگنال پاداش را صادر کند. همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی مدلهای بازمتن دیدیم، این وابستگی اغلب منجر به هک پاداش (Reward Hacking) میشود؛ وضعیتی که مدل یاد میگیرد داور را راضی کند، نه اینکه واقعاً کیفیت خروجی خود را ارتقا دهد.
G-Zero برای حل این مشکل، یک حلقه تکاملی مشترک بین دو نقش ایجاد میکند:
- پیشنهاددهنده (Proposer): که از طریق بهینهسازی سیاست نسبی گروهی (GRPO) آموزش میبیند تا پرسوجوهای چالشبرانگیز و راهنماییهای آموزندهای را بسازد که دقیقاً نقاط کور تولیدکننده را هدف قرار دهند.
- تولیدکننده (Generator): که با استفاده از بهینهسازی مستقیم ترجیحات (DPO) بهینهسازی میشود تا بهبودهای پیشنهادی در آن راهنماییها را درونی کند.
قلب تپنده این سیستم، سازوکار Hint-δ است؛ یک پاداش درونی که میزان تغییر پیشبینی بین پاسخ بدون کمک مدل و پاسخ شرطیشده با یک راهنمای خود-تولید را اندازهگیری میکند. طبق اعلام نویسندگان، اگر پیشنهاددهنده پوشش اکتشافی کافی داشته باشد و نویز سیستم پایین بماند، این مدل تضمین تئوریک برای بهینهسازی تکرارپذیر ارائه میدهد.
از دیدگاه فنی، این رویکرد فرض بنیادین تکامل مدلها را تغییر میدهد. تبدیل جستوجوی نقاط کور به یک بازی «خود-بازی» (Self-play)، به این معناست که مدلهای زبانی بزرگ (LLM) میتوانند در حوزههایی مثل نویسندگی خلاق یا استراتژیهای پیچیده — بدون نیاز به یک مدل مرجع یا انسان — مقیاسپذیر شوند.
گام بعدی شما
- رصد انتشار وزنهای مدل G-Zero برای تست روی دادههای تخصصی.
- بررسی ادغام این سازوکار در کتابخانههای متنباز RLHF جهت کاهش وابستگی به مدلهای Frontier.
- تحلیل اثر Hint-δ بر کاهش نرخ توهم در مدلهای استدلالی.
اما اثر این روش بر کاهش هزینههای استنتاج هنوز ناشناخته است — به بررسی ما دربارهی بهینهسازیهای DPO مراجعه کنید.
گفتگو