اگر امروز برای اجرای مدلهای غولآسا هزینههای کلانی میپردازید، باید بدانید که راهی برای حفظ همان سطح از هوش با کسری از هزینهها وجود دارد. در ۳۰ ژوئن ۲۰۲۶، تحلیل فنی وبسایت The Sequence توضیح داد که چگونه تقطیر مدل (distillation) گلوگاههای فعلی را با آموزش یک مدل «شاگرد» برای کپیبرداری از منطق مدل «استاد» برطرف میکند.
در فضای فعلی هوش مصنوعی، استفاده از یک مدل عظیم برای هر وظیفه ساده، برای اکثر کسبوکارها از نظر مالی توجیهپذیر نیست. این تکنیک، فاصله میان قدرت خام و کاربرد عملی را پر میکند. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای بازمتن اشاره کردیم، هدف اکنون کاهش اثر محیطی و مالی مدلها بدون از دست دادن استدلالهای ظریفی است که مدلهای بزرگتر توسعه دادهاند. این تلاش برای بهینهسازی، در کنار رویکردهایی چون بهکارگیری هوش تفویضمحور در مدلهایی نظیر SearchSwarm-30B، مسیر دستیابی به بازدهی حداکثری را هموار میکند.
مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن پاسخ میدهد — در اینجا نقش استاد را دارد. طبق این گزارش، تقطیر هدف آموزش را از «واقعیت» به «تفسیر استاد از واقعیت» تغییر میدهد. بهجای اینکه مدل شاگرد سعی کند پاسخ درست را از روی دادههای خام حدس بزند، توزیع احتمالات مدل استاد را یاد میگیرد. این فرآیند یادگیری توزیع احتمالات میتواند به مدلهای کوچکتر کمک کند تا با دقت بیشتری عمل کنند و مشابه سازوکار A11 در مهار توهمات هوش مصنوعی، تفکیک بهتری میان مشاهده و نتیجه داشته باشند.

بر اساس مستندات فنی، این سازوکار به مدل شاگرد اجازه میدهد «دانش تاریک» را جذب کند؛ یعنی روابط ظریفی میان پاسخهای نادرست که در آموزشهای استاندارد نادیده گرفته میشوند. با تقلید از این الگوها، مدل کوچکتر به صحتی بسیار بالاتری میرسد تا زمانی که از ابتدا روی همان دادهها آموزش ببیند.
برای کاربر نهایی، این یعنی آیندهٔ هوش مصنوعی تنها در بزرگتر کردن مدلها نیست، بلکه در فشردهسازی هوشمندانه است. شما احتمالاً در اپلیکیشنهای موبایلی و دستگاههای رایانش لبه (Edge Computing) — مانند پردازندههای کوچک داخل گوشی که بدون نیاز به اینترنت سریع پاسخ میدهند — با مدلهای تقطیرشده روبرو خواهید شد؛ جایی که تأخیر (Latency) یک عامل شکست است اما هوش سطح استاد مورد نیاز است.
گام بعدی شما
- انتشار مدلهای زبانی کوچک (SLM) تخصصی را دنبال کنید که ادعای برابری با مدلهای کلاس GPT در حوزههای خاص را دارند.
- اگر توسعهدهنده هستید، ابزارهای تقطیر را برای کاهش هزینه استنتاج در محصولات خود بررسی کنید.
- تفاوت سرعت پاسخدهی در نسخههای سبکشدهٔ اپلیکیشنهای هوش مصنوعی را در دستگاههای قدیمیتر بسنجید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک نقش تراشههای جدید در اجرای این مدلهای کوچک، به تحلیل ما دربارهی پردازندههای NPU مراجعه کنید.




گفتگو