افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

باید بدانید که سقف توانایی‌های استدلالی در مدل‌های زبانی، برخلاف باور عمومی، صرفاً تابع افزایش تعداد پارامترها نیست. تصور کنید مدل شما در مواجهه با مسائل ریاضی، یا بیش از حد محتاط است و یا در تله‌ی مسائل بسیار ساده و دشوار گرفتار شده است؛ این دقیقاً همان جایی است که بهینه‌سازی سیاست آموزشی وارد عمل می‌شود.

طبق گزارش منتشرشده در ۱۱ مه ۲۰۲۶ در arXiv، چارچوب بهینه‌سازی EXPO توانست نرخ موفقیت (pass@32) مدل‌های زبانی در آزمون AIME ۲۰۲۵ را از ۶۳.۳۳٪ به ۷۶.۶۷٪ برساند. این جهش ۱۳.۳۴ درصدی ثابت می‌کند که با تغییر متدولوژی آموزش، می‌توان از مدل‌های کوچک‌تر نتایجی در سطح مدل‌های پیشرو گرفت.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی اشاره کردیم، چالش اصلی در این مسیر، مدیریت تعادل بین اکتشاف و پایداری است. در حال حاضر، یادگیری تقویت‌شده با پاداش‌های قابل‌تأیید (RLVR) عمدتاً بر بهینه‌سازی سیاست نسبی گروهی (GRPO) تکیه دارد. اما به نقل از پژوهشگران، GRPO با دو ناکارآمدی کلیدی دست‌وپنجه نرم می‌کند: جریمه‌های صلب KL (KL penalty) که مانع از اکتشاف مدل می‌شود و نمونه‌برداری یکنواخت که توان محاسباتی را روی مسائلی تلف می‌کند که یا بیش از حد ساده‌اند یا بسیار دشوار.

چارچوب EXPO برای حل این گره‌ها، دو ماژول سبک را معرفی کرده است:

مقیاس‌بندی تطبیقی KL بر اساس دقت (AKL): این سیستم به‌طور پویا شدت تنظیم KL را تغییر می‌دهد؛ یعنی وقتی مدل ضعیف عمل می‌کند، جریمه را کاهش می‌دهد تا مدل بیشتر «جستجو» کند و وقتی دقت بالا می‌رود، جریمه را سخت‌گیرانه‌تر می‌کند تا سیاست مدل تثبیت شود.
نمونه‌برداری برنامه درسی گاوسی (GCS): به جای انتخاب تصادفی مسائل، وزن‌ها را بر اساس توزیع گاوسی حول دقت ۰.۵ تنظیم می‌کند تا مدل دقیقاً روی «مرز یادگیری» خود تمرکز کند.

در آزمایش‌های انجام‌شده روی مدل‌های DeepSeek-R1-Distill-Qwen-1.5B و Qwen3-8B-Base در ۶ بنچمارک ریاضی، مدل ۸ میلیاردی شاهد بهبود میانگین ۲.۶۶ در نرخ pass@32 بود.

این تغییر رویکرد، این فرض را که تمام داده‌های آموزشی ارزش یکسانی دارند، به چالش می‌کشد. EXPO ثابت می‌کند که اثرگذارترین سیگنال‌های گرادیان در لبه‌ی توانایی‌های فعلی مدل نهفته‌اند و مسیر رسیدن به نمرات بالاتر، در مدیریت هوشمند برنامه درسی است، نه صرفاً افزایش حجم داده‌ها.

گام بعدی شما

بررسی ادغام تکنیک‌های نمونه‌برداری تطبیقی در خط‌لوله‌های تقطیر (Distillation) نسل جدید مدل‌های R1.
تحلیل اثر AKL بر کاهش نرخ توهم (Hallucination) در پاسخ‌های استدلالی.
آزمایش متد GCS برای دسته‌بندی داده‌های آموزشی در پروژه‌های شخصی مدل‌های کوچک.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این بهینه‌سازی بر کاهش نیاز به GPU را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

چارچوب EXPO برای حل این گره‌ها، دو ماژول سبک را معرفی کرده است:

مقیاس‌بندی تطبیقی KL بر اساس دقت (AKL): این سیستم به‌طور پویا شدت تنظیم KL را تغییر می‌دهد؛ یعنی وقتی مدل ضعیف عمل می‌کند، جریمه را کاهش می‌دهد تا مدل بیشتر «جستجو» کند و وقتی دقت بالا می‌رود، جریمه را سخت‌گیرانه‌تر می‌کند تا سیاست مدل تثبیت شود.
نمونه‌برداری برنامه درسی گاوسی (GCS): به جای انتخاب تصادفی مسائل، وزن‌ها را بر اساس توزیع گاوسی حول دقت ۰.۵ تنظیم می‌کند تا مدل دقیقاً روی «مرز یادگیری» خود تمرکز کند.

گام بعدی شما

بررسی ادغام تکنیک‌های نمونه‌برداری تطبیقی در خط‌لوله‌های تقطیر (Distillation) نسل جدید مدل‌های R1.
تحلیل اثر AKL بر کاهش نرخ توهم (Hallucination) در پاسخ‌های استدلالی.
آزمایش متد GCS برای دسته‌بندی داده‌های آموزشی در پروژه‌های شخصی مدل‌های کوچک.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران