تصور کنید گلوگاه آموزش یک مدل هوش مصنوعی دیگر نبودِ انسان برای تصحیح پاسخها نباشد، بلکه فقط قدرت پردازش سختافزاری باشد. شریجیت ونکاترامانا (Shrijith Venkatramana) توضیح میدهد که یادگیری تقویتی با پاداشهای قابلتأیید (RLVR) این امکان را فراهم میکند تا هوش مصنوعی اساساً «تکالیف خود را خودش تصحیح کند».
به نقل از تحلیلهای فنی، مدلهای برنامهنویسی اکنون نه به دلیل مطالعه متنهای بیشتر، بلکه به دلیل یادگیری از واقعیتهای اجرایی در حال پیشرفت هستند. برای سالها، صنعت بر یادگیری تقویتی از بازخوردهای انسانی (RLHF) متکی بود. در این سامانه، انسانها خروجیهای مدل را رتبهبندی میکنند و یک مدل پاداش (Reward Model) این ترجیحات را تقلید میکند. زنجیره به این شکل است: پرسش $\rightarrow$ خروجی مدل $\rightarrow$ ارزیابی انسانی $\rightarrow$ سیگنال پاداش $\rightarrow$ بهبود مدل.
این روش مدلها را مودبانهتر، بیضررتر و گفتگومحور میکند، اما بهشدت گران است. همانطور که در تحلیل قبلی ما دربارهی اینکه چرا عاملهای هوش مصنوعی هنوز در پروژههای پیچیده Swift شکست میخورند اشاره کردیم، مقیاسبندی خروجیهای خودکار زمانی به بنبست میرسد که فرآیند اعتبارسنجی بیش از حد کند یا ذهنی باشد. انسانها اغلب با هم اختلافنظر دارند؛ اگر از ۱۰ برنامهنویس بپرسید آیا یک قطعه کد «ظریف» یا «بهینه» است، احتمالاً ۱۱ نظر متفاوت دریافت کنید.
RLVR این مشکل را با شناسایی وظایف «خود-تأییدکننده» حل میکند. در این حوزهها، درست یا غلط بودن پاسخ کاملاً عینی است. چگونه به یک هوش مصنوعی بفهمانیم که پاسخ او واقعاً درست است؟ برای نویسندگی خلاق، بیان نظرات، طوفان فکری و گفتگوها، مفهوم «درست بودن» مبهم و نسبی است. اما برای برخی دیگر، این موضوع باینری (صفر و یک) است. اگر از یک AI بخواهید تابعی در پایتون برای معکوس کردن یک لیست پیوندی (Linked List) بنویسد، نیازی نیست انسانی به مدل بگوید که آیا کد کار میکند یا خیر. شما بهسادگی یک مجموعه تست مثل pytest را اجرا میکنید. اگر تستها پاس شوند، پاداش ۱ و در غیر این صورت ۰ است.
مقیاسبندی سازوکار پاداش
این حلقه بازخورد خودکار، اقتصاد آموزش را دگرگون میکند. تفاوت بنیادین در منبع سیگنال پاداش نهفته است:
- RLHF سنتی: پاداش = ترجیح انسانی (ذهنی / گرانقیمت)
- RLVR: پاداش = صحت قابلتأیید (عینی / ارزان)
به جای پرسیدن «آیا یک انسان این پاسخ را دوست دارد؟»، دانشمندان اکنون میپرسند «آیا میتوان این پاسخ را بهصورت خودکار تأیید کرد؟». این تغییر پارادایم اجازه میدهد توسعهدهندگان از مقیاس هزاران مثالِ داوریشده توسط انسان، به میلیاردها مثال خودکار جهش کنند. در این حالت، مدل دیگر صرفاً در حال حفظ کردن یک مجموعهداده نیست، بلکه در جستجوی رفتارهایی است که نرخ موفقیت تاییدکننده (Verifier) را به حداکثر برساند.
در لایههای زیرین، مدل یک چرخه از حالت (State) $\rightarrow$ اقدام (Action) $\rightarrow$ نتیجه (Outcome) را طی میکند و هدفش بهینهسازی برای بیشینهسازی پاداش مورد انتظار (E[reward]) است. این مکانیسم مرکزی است: هرگاه تأیید ممکن باشد، تولید پاداش بهشدت ارزانتر و مقیاسپذیرتر میشود.
حوزههای قابلیتتأیید
برنامهنویسی طبیعیترین محیط برای این روش است. یک بنچمارک کدنویسی را تصور کنید که ورودی آن «پیادهسازی جستجوی دودویی» (Binary Search) است. خروجی، کد تولید شده است و تأیید آن به سادگی فراخوانی تابع run_tests() است. برای مثال، اگر عبارت binary_search([1,2,3],2) == 1 برای تمام موارد تست پاس شود، مدل پاداش بالایی دریافت میکند.
این رویکرد دقیقاً همان منطقی است که در پژوهشهای اخیر انویدیا برای ارتقای دقت عاملهای کدنویس به کار گرفته شد تا نرخ موفقیت در وظایف رباتیک را به ۹۹٪ برساند. با تکرار میلیونها باره این چرخه، مدل قابلیتهای پیشرفتهای را بدون اینکه هیچ انسانی کد را بازبینی کند، کشف میکند؛ از جمله:
- استراتژیهای عیبیابی (Debugging) کارآمدتر
- روشهای تجزیه مسئله (Decomposition) پیشرفتهتر
- زنجیرههای استدلالی مستحکمتر و دقیقتر
- ساختارهای کد برتر و بهینهتر
ریاضیات نیز از همین منطق پیروی میکند. فرض کنید وظیفه حل ضرب ۱۲۷ در ۳۴۸ باشد؛ پاسخ نهایی را میتوان بهطور خودکار چک کرد. حتی مسائل پیچیدهتر، مانند یافتن x در معادله $2x + 5 = 17$، برای تایید بسیار سادهاند: کافی است مقدار x را جایگذاری کرد و صحت معادله را بررسی نمود. پاسخهای درست پاداش ۱ و پاسخهای غلط پاداش ۰ میگیرند. این امر اجازه میدهد مدلهای متمرکز بر استدلال، حجم عظیمی از مسائل را بهطور خودکار تمرین کنند، بدون اینکه به ارتشی از برچسبزنهای انسانی نیاز داشته باشند.

سایر تاییدکنندههایی که ونکاترامانا به آنها اشاره کرده است عبارتند از:
- موفقیت در کامپایل (Compilation success)
- اعتبارسنجی اثباتهای رسمی (Formal proof validation)
- نتایج شبیهسازی (Simulation outcomes)
- اجرای بنچمارکها (Benchmark execution)
- تستهای واحد (Unit tests)
- بررسیهای ریاضی (Mathematical checking)
مکانیسم حلقه یادگیری
برای درک نحوه عملکرد عملی، آموزش یک AI روی مسائل الگوریتمی را تصور کنید. فرآیند برای هر مسئله از یک خط لوله (Pipeline) سختگیرانه پیروی میکند: مسئله $\rightarrow$ مدل پاسخ را تولید میکند $\rightarrow$ کامپایل $\rightarrow$ اجرای تستها $\rightarrow$ تخصیص پاداش.
مدل ممکن است در ابتدا نسخهای ناقص تولید کند، مانند: def factorial(n): return n. وقتی تاییدکننده دستور assert factorial(5) == 120 را اجرا میکند، با شکست مواجه میشود و مدل پاداش ۰ میگیرد.
سپس مدل رویکرد دیگری را امتحان میکند: def factorial(n): if n <= 1: return 1 return n * factorial(n - 1). چون این بار تستها پاس میشوند، مدل پاداش ۱ دریافت میکند. با گذشت زمان، یادگیری تقویتی «جرم احتمال» (Probability Mass) را به سمت این رفتارهای موفق سوق میدهد. در اینجا AI در حال حفظ کردن پاسخها نیست، بلکه در حال یادگیری الگوهای بنیادی است که با موفقیت مرتبط هستند.
ریسکهای سوءاستفاده از پاداش
RLVR یک راهکار جهانی نیست. این روش برای وظایف ذهنی که صحت آنها مبهم است، کار نمیکند. مثالهایی از این موارد عبارتند از:
- نوشتن یک رمان جذاب و گیرا
- طراحی یک استراتژی عالی برای محصول
- خلق یک کمپین بازاریابی متقاعدکننده
- مدیریت یک مذاکره ظریف و پیچیده
در این حوزهها، قضاوت انسانی همچنان تنها سیگنال معتبر است. همچنین ریسک «سوءاستفاده از پاداش» (Reward Hacking) وجود دارد. این اتفاق زمانی میافتد که مدل یک راه میانبر برای فریب دادن تاییدکننده پیدا کند؛ مثلاً از یک حفره یا باگ در مجموعه تستها بهرهبرداری کند بدون اینکه واقعاً مسئله اصلی را حل کرده باشد. این موضوع طراحی خودِ تاییدکننده را به یک چالش مهندسی حیاتی تبدیل میکند؛ تاییدکننده باید بسیار مستحکم باشد، زیرا طراحی یک تابع پاداش خوب، اغلب سختتر از آموزش خود مدل است.
گسترش اقتصاد آموزش
یکی از حیاتیترین پیامدهای RLVR، نه تنها دقت، بلکه مقیاسپذیری است. هنگام انتقال از ۱۰ میلیون به ۱۰۰ میلیون یا حتی ۱ میلیارد مثال آموزشی، ارزیابی انسانی به یک گلوگاه غیرممکن تبدیل میشود. اما تأیید خودکار همچنان عملی و ممکن باقی میماند.
به محض اینکه یک تاییدکننده وجود داشته باشد، تولید پاداش را میتوان تقریباً تا بینهایت مقیاسبندی کرد. این موضوع اقتصاد آموزش مدل را دگرگون میکند. توسعهدهندگان بهجای استخدام ارزیابهای انسانی بیشتر، صرفاً مسائل بیشتری تولید کرده و تاییدات بیشتری را اجرا میکنند. بسیاری از پژوهشگران معتقدند دلیل اصلی پیشرفت سریع مدلهای استدلالی و کدنویسی در چند سال اخیر، همین سازوکار است.
در نهایت، ظهور RLVR نشاندهنده چرخش به سمت «یادگیری مبتنی بر واقعیت» است. مدلها دیگر فقط سعی نمیکنند یک ارزیاب انسانی را راضی کنند، بلکه یاد میگیرند خروجیهایی تولید کنند که در دنیای واقعی کار میکنند. این یکی از معنادارترین تغییرات در آموزش AI مدرن است که نیاز به نظارت انسانی را کاهش داده و مقیاس آموزش را بهشدت افزایش میدهد.
اگر میخواهید این روش را در حوزه کاری خود به کار ببرید، بررسی کنید چه چیزی برای شما «داده مرجع» (Ground Truth) است. چه معیارهای مشتری باشد، چه تستهای واحد، شبیهسازیها یا اثباتهای رسمی، توانایی شما در خودکارسازی سیگنال پاداش، سرعت تکامل AI شما را تعیین میکند.
گام بعدی شما
- شناسایی وظایفی در کسبوکار خود که خروجی آنها «باینری» (درست یا غلط) است و میتوان تاییدکننده خودکار برایشان نوشت.
- جایگزینی تدریجی بازخوردهای انسانی در بخشهای فنی با تستهای خودکار برای کاهش هزینه آموزش.
- مطالعه معماری مدلهای استدلالی جدید که از RLVR برای بهبود زنجیره تفکر استفاده کردهاند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اینکه این حجم از تکرارها چه فشار صنعتی ایجاد میکند، به تحلیل ما درباره تراشههای Blackwell مراجعه کنید.




گفتگو