تیمی از پژوهشگران چارچوب جدیدی به نام Lightning OPD را معرفی کردهاند که زیرساخت محاسباتی مورد نیاز برای آموزش مدلهای استدلالی بزرگ را به شکل چشمگیری کاهش میدهد. این پژوهش که در arXiv منتشر شده، یکی از موانع اصلی روش تقطیر سیاستمحور (OPD) را هدف قرار داده است؛ رویکردی که به عنوان الگویی کارآمد برای آموزش تکمیلی مدلهای زبانی بزرگ شناخته میشود، اما تا پیش از این به دسترسی مداوم به سرور استنتاج مدل معلم نیاز داشت.
نوآوری اصلی این پژوهش، شناسایی و اعمال مفهومی به نام «ثبات معلم» است؛ شرطی که پیشتر نادیده گرفته میشد و بر لزوم استفاده از یک مدل معلم واحد در هر دو مرحله آموزش با نظارت و تقطیر سیاستمحور تأکید دارد. این تیم نشان داده که نقض این ثبات، انحراف گرادیانی غیرقابل بازگشتی ایجاد میکند که باعث میشود خط لولههای تقطیر سیاستمحور آفلاین و آنلاین صرفنظر از مدت آموزش به نقطه ثابت نامناسبی همگرا شوند.
با پیشمحاسبه احتمالات لاگ از مدل معلم روی خروجیهای آموزش با نظارت و تضمین ثبات معلم، چارچوب Lightning OPD نیاز به سرور معلم را به طور کامل حذف کرده است. این طراحی منافع عملی قابل توجهی به همراه دارد: چارچوب مذکور تحت شرایط ثبات معلم به همان بهینهای دست مییابد که روشهای استاندارد تقطیر سیاستمحور، دارای اختلاف گرادیان محدود است، و اثر تنظیمسازی ضمنیای دارد که به جلوگیری از انحراف سیاست کمک میکند.
نتایج آزمایشی بسیار قانعکننده است. با شروع از مدل Qwen3-8B-Base آموزشدیده با روش SFT، چارچوب Lightning OPD به دقت ۶۹.۹٪ در آزمون AIME 2024 دست یافت؛ معیاری چالشبرانگیز برای استدلال ریاضی. این عملکرد در مدت تنها ۳۰ ساعت GPU حاصل شد که نشاندهنده ۴ برابر سرعت بیشتر در مقایسه با رویکردهای متعارف تقطیر سیاستمحور است.
از منظر جامعه پژوهشی دانشگاهی، این کار مانع ورود به حوزه آموزش تکمیلی مدلهای زبانی بزرگ را به شکل قابل توجهی کاهش داده است. سازمانهایی که زیرساخت لازم برای استنتاج مداوم مدل معلم را ندارند، اکنون میتوانند با استفاده از احتمالات لاگ پیشمحاسبهشده از تکنیکهای تقطیر سیاستمحور بهره ببرند. یافتهها درباره ثبات معلم ارزش تشخیصی نیز دارد و میتواند برای رفع خطا در خط لولههای تقطیر سیاستمحور موجود مفید باشد.
چشمانداز آینده این پژوهش نشان میدهد که اصول زیربنایی Lightning OPD ممکن است بر شیوه انجام پژوهشهای تقطیر تأثیر بگذارد و احتمالاً کارهای بیشتری به سمت استراتژیهای پیشمحاسبه آفلاین سوق پیدا کنند. اثر تنظیمسازی شناساییشده در این تحلیل ارزش بررسی عمیقتر دارد، چرا که ممکن است به عنوان مکانیزمی برای بهبود پایداری آموزش در مدلهای استدلالی عمل کند.

گفتگو