رمزگشایی از TIDE: وقتی مدل‌های کوچک از غول‌ها تقلید می‌کنند

باید بپذیرید که دوران مدل‌های غول‌پیکر برای هر تسک ساده به پایان رسیده است. تصور کنید مدلی با تنها ۶۰۰ میلیون پارامتر بتواند منطق یک غول ۱۶ میلیارد پارامتری را به سرقت ببرد.

در ۳۰ آوریل ۲۰۲۶، پژوهشگران چارچوب TIDE را معرفی کردند؛ سیستمی که موانع معماری در فرآیند تقطیر دانش (Knowledge Distillation) برای مدل‌های زبانی انتشار (Diffusion LLMs) را می‌شکند.

به نقل از مقاله منتشر شده در arxiv.org، این فناوری امکان «تقطیر متقاطع معماری» را فراهم می‌کند. این یعنی یک مدل کوچک (شاگرد) می‌تواند از یک مدل بزرگ (استاد) یاد بگیرد، حتی اگر این دو مدل از مکانیزم‌های توجه یا توکنایزرهای کاملاً متفاوتی استفاده کنند. این دستاورد، گلوگاه اصلی روش‌های پیشین را که تنها در محیط‌های تک‌معماری کار می‌کردند، از بین می‌برد.

این چارچوب بر سه رکن فنی استوار است:

TIDAL: این بخش قدرت تقطیر را بر اساس پیشرفت آموزش و گام‌های انتشار تنظیم می‌کند تا اثرات نویز استاد را خنثی کند.
CompDemo: با استفاده از تقسیم ماسک‌های مکمل، بافتار (Context) استاد را غنی‌تر می‌کند تا پیش‌بینی‌ها در شرایط ماسک‌گذاری شدید بهبود یابد.
Reverse CALM: یک هدف متقاطع برای توکنایزرها که تطبیق احتمال در سطح تکه (Chunk) را معکوس می‌کند تا گرادیان‌ها محدود و نویزها فیلتر شوند.

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های زبانی کوچک (Small Language Models) اشاره کردیم، بهینه‌سازی کارایی بدون افت کیفیت، هدف نهایی این صنعت است. نتایج TIDE در این مسیر خیره‌کننده است. طبق گزارش پژوهشگران، با تقطیر مدل‌های ۸ میلیارد پارامتری متراکم و مدل‌های ۱۶ میلیارد پارامتری مجموعه خبرگان (MoE) در یک مدل ۰.۶ میلیاردی، میانگین ۱.۵۳ امتیاز در ۸ بنچمارک مختلف رشد کرد.

بیشترین جهش در تولید کد رخ داد؛ جایی که امتیاز HumanEval از ۳۲.۳ در مدل‌های خودبازگشتی (Autoregressive) به ۴۸.۷۸ رسید. این یعنی مدل‌های کوچک دیگر نیازی ندارند تا برای رسیدن به هوش مدل‌های پیشرو، حجم پارامترهای خود را به شدت افزایش دهند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

اگر توسعه‌دهنده هستید، بررسی کنید که چگونه می‌توانید مدل‌های تخصصی خود را با استفاده از تقطیر متقاطع بهینه کنید.
روی مدل‌های انتشار (Diffusion) برای تسک‌های کدنویسی تمرکز کنید؛ چرا که به نظر می‌رسد در حال جایگزینی مدل‌های سنتی باشند.
منتظر انتشار وزن‌های باز این مدل‌ها باشید تا کارایی آن‌ها را در محیط‌های لبه (Edge) بسنجید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این چارچوب بر سه رکن فنی استوار است:

TIDAL: این بخش قدرت تقطیر را بر اساس پیشرفت آموزش و گام‌های انتشار تنظیم می‌کند تا اثرات نویز استاد را خنثی کند.
CompDemo: با استفاده از تقسیم ماسک‌های مکمل، بافتار (Context) استاد را غنی‌تر می‌کند تا پیش‌بینی‌ها در شرایط ماسک‌گذاری شدید بهبود یابد.
Reverse CALM: یک هدف متقاطع برای توکنایزرها که تطبیق احتمال در سطح تکه (Chunk) را معکوس می‌کند تا گرادیان‌ها محدود و نویزها فیلتر شوند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

اگر توسعه‌دهنده هستید، بررسی کنید که چگونه می‌توانید مدل‌های تخصصی خود را با استفاده از تقطیر متقاطع بهینه کنید.
روی مدل‌های انتشار (Diffusion) برای تسک‌های کدنویسی تمرکز کنید؛ چرا که به نظر می‌رسد در حال جایگزینی مدل‌های سنتی باشند.
منتظر انتشار وزن‌های باز این مدل‌ها باشید تا کارایی آن‌ها را در محیط‌های لبه (Edge) بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از TIDE: وقتی مدل‌های کوچک از غول‌ها تقلید می‌کنند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از TIDE: وقتی مدل‌های کوچک از غول‌ها تقلید می‌کنند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از TIDE: وقتی مدل‌های کوچک از غول‌ها تقلید می‌کنند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از TIDE: وقتی مدل‌های کوچک از غول‌ها تقلید می‌کنند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران