باید بپذیرید که دوران مدلهای غولپیکر برای هر تسک ساده به پایان رسیده است. تصور کنید مدلی با تنها ۶۰۰ میلیون پارامتر بتواند منطق یک غول ۱۶ میلیارد پارامتری را به سرقت ببرد.
در ۳۰ آوریل ۲۰۲۶، پژوهشگران چارچوب TIDE را معرفی کردند؛ سیستمی که موانع معماری در فرآیند تقطیر دانش (Knowledge Distillation) برای مدلهای زبانی انتشار (Diffusion LLMs) را میشکند.
به نقل از مقاله منتشر شده در arxiv.org، این فناوری امکان «تقطیر متقاطع معماری» را فراهم میکند. این یعنی یک مدل کوچک (شاگرد) میتواند از یک مدل بزرگ (استاد) یاد بگیرد، حتی اگر این دو مدل از مکانیزمهای توجه یا توکنایزرهای کاملاً متفاوتی استفاده کنند. این دستاورد، گلوگاه اصلی روشهای پیشین را که تنها در محیطهای تکمعماری کار میکردند، از بین میبرد.
این چارچوب بر سه رکن فنی استوار است:
- TIDAL: این بخش قدرت تقطیر را بر اساس پیشرفت آموزش و گامهای انتشار تنظیم میکند تا اثرات نویز استاد را خنثی کند.
- CompDemo: با استفاده از تقسیم ماسکهای مکمل، بافتار (Context) استاد را غنیتر میکند تا پیشبینیها در شرایط ماسکگذاری شدید بهبود یابد.
- Reverse CALM: یک هدف متقاطع برای توکنایزرها که تطبیق احتمال در سطح تکه (Chunk) را معکوس میکند تا گرادیانها محدود و نویزها فیلتر شوند.
همانطور که در تحلیل قبلی ما دربارهی مدلهای زبانی کوچک (Small Language Models) اشاره کردیم، بهینهسازی کارایی بدون افت کیفیت، هدف نهایی این صنعت است. نتایج TIDE در این مسیر خیرهکننده است. طبق گزارش پژوهشگران، با تقطیر مدلهای ۸ میلیارد پارامتری متراکم و مدلهای ۱۶ میلیارد پارامتری مجموعه خبرگان (MoE) در یک مدل ۰.۶ میلیاردی، میانگین ۱.۵۳ امتیاز در ۸ بنچمارک مختلف رشد کرد.
بیشترین جهش در تولید کد رخ داد؛ جایی که امتیاز HumanEval از ۳۲.۳ در مدلهای خودبازگشتی (Autoregressive) به ۴۸.۷۸ رسید. این یعنی مدلهای کوچک دیگر نیازی ندارند تا برای رسیدن به هوش مدلهای پیشرو، حجم پارامترهای خود را به شدت افزایش دهند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- اگر توسعهدهنده هستید، بررسی کنید که چگونه میتوانید مدلهای تخصصی خود را با استفاده از تقطیر متقاطع بهینه کنید.
- روی مدلهای انتشار (Diffusion) برای تسکهای کدنویسی تمرکز کنید؛ چرا که به نظر میرسد در حال جایگزینی مدلهای سنتی باشند.
- منتظر انتشار وزنهای باز این مدلها باشید تا کارایی آنها را در محیطهای لبه (Edge) بسنجید.




گفتگو