اگر در تلاشید یک مدل بینایی-زبانی را کوچک کنید، احتمالاً بزرگترین مانع شما، همان معلمی است که برای آموزش مدل استفاده میکنید.
در دنیای مدلهای زبانی کوچک (Small Language Model - SLM)، همواره یک تضاد بنیادین وجود دارد: ما به دنبال دقت مدلهای غولپیکر هستیم اما با محدودیتهای شدید حافظه و قدرت محاسباتی دستوپنجه نرم میکنیم. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای بازمتن اشاره کردیم، انتقال مستقیم دانش از یک مدل عظیم به یک مدل کوچک، اغلب به دلیل «شکاف ظرفیت» با شکست مواجه میشود و منجر به جذب ضعیف دانش توسط مدل شاگرد میگردد.
بر اساس پژوهشی که در ۱۲ می ۲۰۲۶ در arxiv.org منتشر شد، چارچوب LLaVA-CKD با معرفی تقطیر متوالی دانش (Cascaded Knowledge Distillation - CKD) این بنبست را شکسته است. به جای استفاده از یک معلم واحد با ظرفیت بسیار بالا، این سیستم از یک یا چند معلم میانی با ظرفیتهای متغیر استفاده میکند. در این ساختار، مدل شاگرد بهصورت تدریجی و از پایین به بالا، با لایههای پیچیدگی مواجه میشود تا بتواند مفاهیم را بهتر جذب کند.
طبق مستندات این پژوهش، کارایی این متدولوژی در هفت بنچمارک استاندارد پرسش-پاسخ بصری (Visual Question Answering - VQA) ارزیابی شد و مدلهای حاصل توانستند به عملکرد پیشرو (SotA) دست یابند.
این چرخش راهبردی، این فرض رایج را که «هرچه معلم بزرگتر باشد، شاگرد بهتری تربیت میشود» به چالش میکشد. در واقع، تبدیل فرآیند تقطیر به یک برنامه درسی پیشرونده، اجازه میدهد مدلهای بسیار بهینه با حفظ تواناییهای استدلالی مدلهای بزرگتر ساخته شوند و سد ورود برای استقرار هوش مصنوعی زاینده (Generative AI) چندوجهی بر روی سختافزارهای لبه را پایین بیاورند.
گام بعدی شما
- بررسی کاربرد تقطیر متوالی در معماریهای چندوجهی (Multimodal) غیر از LLaVA.
- تحلیل اثر این روش بر کاهش هزینههای استنتاج (Inference) در محیطهای عملیاتی.
- دنبال کردن تکامل آموزش مدلهای SLM با رویکرد آموزشی پلهای.
اما اثر این بهینهسازی بر سختافزارهای نسل جدید حتی حیاتیتر است؛ برای درک این موضوع به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو