تصور کنید مدلی با تنها ۳ میلیارد پارامتر بتواند در استدلال با غولهای صنعت رقابت کند؛ این دیگر یک فرضیه نیست، بلکه واقعیتِ خروجی VibeThinker-3B است.
این پیشرفت در حالی رخ میدهد که تصور رایج، نیاز به تریلیونها پارامتر برای رسیدن به هوش سطح مرز (Frontier-level) بود. همانطور که در تحلیلهای پیشین ما دربارهی کاهش سوگیری استدلال در مدلهای کوچک اشاره کردیم، تمرکز اکنون از حذف خطا به فشردهسازی کامل «هستههای استدلال» تغییر یافته است.
طبق گزارش فنی منتشر شده در ۱۶ ژوئن ۲۰۲۶، مدل VibeThinker-3B با استفاده از مقیاسبندی زمان تست (Test-time scaling) در سطح ادعا، به امتیاز ۹۷.۱ در بنچمارک AIME26 دست یافت. بر اساس مستندات این پروژه، این مدل از پارادایم پس-آموزشی Spectrum-to-Signal بهره میبرد که شامل موارد زیر است:
- تنظیم دقیق نظارتشده (SFT) مبتنی بر برنامه آموزشی
- یادگیری تقویتشده (RL) چند-دامنه
- تقطیر خودکار آفلاین (Offline self-distillation)
عملکرد این مدل خیرهکننده است: ۸۰.۲ در Pass@1 بنچمارک LiveCodeBench v6 و نرخ پذیرش ۹۶.۱ در مسابقات اخیر LeetCode. این نتایج نشان میدهد که VibeThinker-3B میتواند عملکرد DeepSeek V3.2، GLM-5 و Gemini 3 Pro را در تسکهای قابلراستیآزمایی شبیهسازی یا حتی رد کند.
این دستاورد از «فرضیه پوشش-فشردهسازی پارامتریک» حمایت میکند. به باور تحلیلگران، در حالی که دانش عمومی و اطلاعات دم-دراز نیازمند پارامترهای عظیم هستند، استدلالهای منطقی را میتوان در هستههای متراکم و کوچک جای داد. برای متخصصان یادگیری ماشین، این یعنی مسیر رسیدن به هوش مصنوعی لبه (Edge AI) نه فقط در بهینهسازی، بلکه در شناسایی قابلیتهای قابلفشرده نهفته است.
گام بعدی شما
- بررسی معماریهای «هستهی استدلال» به عنوان استاندارد جدید طراحی.
- آزمایش مدلهای کوچکتر برای تسکهای کدنویسی متمرکز به جای مدلهای عمومی بزرگ.
- دنبال کردن نتایج فشردهسازی در حوزههای غیر-راستیآزمایی.
اما آیا این فشردهسازی در دانش عمومی نیز ممکن است یا با یک سد سختافزاری روبرو هستیم؟ تحلیل ما دربارهی قوانین مقیاسپذیری جدید را بخوانید.




گفتگو