Lightning OPD: آموزش ۴ برابر سریع‌تر LLMs بدون سرور معلم

تیمی از پژوهشگران چارچوب جدیدی به نام Lightning OPD را معرفی کرده‌اند که زیرساخت محاسباتی مورد نیاز برای آموزش مدل‌های استدلالی بزرگ را به شکل چشمگیری کاهش می‌دهد. این پژوهش که در arXiv منتشر شده، یکی از موانع اصلی روش تقطیر سیاست‌محور (OPD) را هدف قرار داده است؛ رویکردی که به عنوان الگویی کارآمد برای آموزش تکمیلی مدل‌های زبانی بزرگ شناخته می‌شود، اما تا پیش از این به دسترسی مداوم به سرور استنتاج مدل معلم نیاز داشت.

نوآوری اصلی این پژوهش، شناسایی و اعمال مفهومی به نام «ثبات معلم» است؛ شرطی که پیش‌تر نادیده گرفته می‌شد و بر لزوم استفاده از یک مدل معلم واحد در هر دو مرحله آموزش با نظارت و تقطیر سیاست‌محور تأکید دارد. این تیم نشان داده که نقض این ثبات، انحراف گرادیانی غیرقابل بازگشتی ایجاد می‌کند که باعث می‌شود خط لوله‌های تقطیر سیاست‌محور آفلاین و آنلاین صرف‌نظر از مدت آموزش به نقطه ثابت نامناسبی همگرا شوند.

با پیش‌محاسبه احتمالات لاگ از مدل معلم روی خروجی‌های آموزش با نظارت و تضمین ثبات معلم، چارچوب Lightning OPD نیاز به سرور معلم را به طور کامل حذف کرده است. این طراحی منافع عملی قابل توجهی به همراه دارد: چارچوب مذکور تحت شرایط ثبات معلم به همان بهینه‌ای دست می‌یابد که روش‌های استاندارد تقطیر سیاست‌محور، دارای اختلاف گرادیان محدود است، و اثر تنظیم‌سازی ضمنی‌ای دارد که به جلوگیری از انحراف سیاست کمک می‌کند.

نتایج آزمایشی بسیار قانع‌کننده است. با شروع از مدل Qwen3-8B-Base آموزش‌دیده با روش SFT، چارچوب Lightning OPD به دقت ۶۹.۹٪ در آزمون AIME 2024 دست یافت؛ معیاری چالش‌برانگیز برای استدلال ریاضی. این عملکرد در مدت تنها ۳۰ ساعت GPU حاصل شد که نشان‌دهنده ۴ برابر سرعت بیشتر در مقایسه با رویکردهای متعارف تقطیر سیاست‌محور است.

از منظر جامعه پژوهشی دانشگاهی، این کار مانع ورود به حوزه آموزش تکمیلی مدل‌های زبانی بزرگ را به شکل قابل توجهی کاهش داده است. سازمان‌هایی که زیرساخت لازم برای استنتاج مداوم مدل معلم را ندارند، اکنون می‌توانند با استفاده از احتمالات لاگ پیش‌محاسبه‌شده از تکنیک‌های تقطیر سیاست‌محور بهره ببرند. یافته‌ها درباره ثبات معلم ارزش تشخیصی نیز دارد و می‌تواند برای رفع خطا در خط لوله‌های تقطیر سیاست‌محور موجود مفید باشد.

چشم‌انداز آینده این پژوهش نشان می‌دهد که اصول زیربنایی Lightning OPD ممکن است بر شیوه انجام پژوهش‌های تقطیر تأثیر بگذارد و احتمالاً کارهای بیشتری به سمت استراتژی‌های پیش‌محاسبه آفلاین سوق پیدا کنند. اثر تنظیم‌سازی شناسایی‌شده در این تحلیل ارزش بررسی عمیق‌تر دارد، چرا که ممکن است به عنوان مکانیزمی برای بهبود پایداری آموزش در مدل‌های استدلالی عمل کند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Lightning OPD: آموزش ۴ برابر سریع‌تر LLMs بدون سرور معلم

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Lightning OPD: آموزش ۴ برابر سریع‌تر LLMs بدون سرور معلم

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Lightning OPD: آموزش ۴ برابر سریع‌تر LLMs بدون سرور معلم

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Lightning OPD: آموزش ۴ برابر سریع‌تر LLMs بدون سرور معلم

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران