تصور کنید معماری هوش مصنوعی از پیشبینی خطی کلمات به یک فرآیند پالایش موازی تغییر کند. این تحول در قلب iLLaDA نهفته است؛ مدل ۸ میلیارد پارامتری جدیدی که توانایی استدلال پایه در آن با مدل استاندارد صنعت یعنی Qwen2.5 7B برابری میکند و سلطه دیرینه مدلهای خودبازگشتی (Autoregressive) را به چالش میکشد.
به نقل از تحلیل فنی وبسایت the-decoder.com در ۲۷ ژوئن ۲۰۲۶، اکثر مدلهای زبانی بزرگ فعلی مثل GPT یا Claude، متن را از چپ به راست تولید میکنند. اما مدل انتشار (Diffusion Model) با توالیهایی از توکنهای ماسکشده شروع کرده و طی چندین مرحله، آنها را به متنی منسجم تبدیل میکند؛ دقیقاً مشابه روشی که مدلهای تولید تصویر، یک عکس را از دل نویز بیرون میکشند. این سازوکار اجازه میدهد هر موقعیت در توالی، بهطور همزمان به تمام موقعیتهای دیگر توجه کند و جریان اطلاعات دوطرفه ایجاد شود. این رویکرد در تلاش برای غلبه بر چالشهای ساختاری است، درست مانند راهکارهای Uni-E برای حذف خطای توزیع در مدلهای انتشار زبانی که گامی در جهت پایداری بیشتر این معماریها بود.
همانطور که در تحلیلهای پیشین ما دربارهی تکامل معماریهای ترنسفورمر اشاره کردیم، تلاش برای خروج از حالت خطی همواره با چالش کیفیت همراه بوده است. iLLaDA (مخفف improved LLaDA) با مدلهای اخیر متفاوت است. در حالی که گوگل دیپمایند در ژوئن ۲۰۲۶ مدل DiffusionGemma را با اولویت سرعت بر کیفیت عرضه کرد، iLLaDA از پایه و با ۱۲ تریلیون توکن آموزش دیده تا حداکثر عملکرد شناختی را به دست آورد.
بر اساس مستندات منتشر شده، دادههای کلیدی عملکرد iLLaDA 8B عبارتاند از:
- استدلال BBH: ۷۱.۳ امتیاز (برتری نسبت به ۶۳.۹ امتیاز Qwen2.5 7B)
- وظایف عمومی MMLU: ۷۴.۸ امتیاز
- ریاضیات GSM8K: ۸۱.۹ امتیاز
- کدنویسی HumanEval: ۵۰.۰ امتیاز
در آزمونهای رویارویی، iLLaDA با میانگین امتیاز ۶۳.۹، مدل Dream 7B را که امتیاز ۶۱.۴ داشت، شکست داد. این نقطه عطف از آن جهت اهمیت دارد که Dream از یک نقطه بازرسی (Checkpoint) موجود در Qwen2.5 تنظیم شده بود، اما iLLaDA هیچ پیشزمینه خودبازگشتی نداشت.
با این حال، طبق گزارش پژوهشگران، شکاف عملکردی در سطح دستورات همچنان پابرجاست. مدل iLLaDA-Instruct امتیاز ۶۷.۱ را کسب کرد که بهطور قابلتوجهی پایینتر از ۷۷.۱ امتیاز Qwen2.5 7B Instruct است. دلیل این نقص، نبودِ فرآیند گسترده همراستاسازی (Alignment) از طریق یادگیری تقویتی در iLLaDA است.
برای جامعه فنی، این نتایج نشان میدهد که معماریهای انتشار میتوانند در بازیابی دانش خام و استدلال پایه با مدلهای خودبازگشتی برابری کنند، اما در مراحل تنظیم دقیق (Fine-tuning) برای تبدیل شدن به دستیارهای چت، دچار مشکل میشوند. نویسندگان همچنین اشاره کردند که iLLaDA در وظایف بسیار پیچیده، گاهی دچار حلقههای تکرار در استدلال میشود.
گام بعدی شما
- تحلیل مقایسهای بین خروجیهای iLLaDA و مدلهای autoregressive برای شناسایی تفاوتهای کیفی در ساختار جملات.
- رصد بهروزرسانیهای احتمالی iLLaDA در زمینه استفاده از RLHF برای کاهش شکاف دستورات.
- بررسی احتمال ترکیب معماریهای انتشار و خودبازگشتی در مدلهای آینده.
اما داستان سختافزاری مورد نیاز برای اجرای موازی این مدلها حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی حافظه VRAM در استنتاج مدلهای حجیم مراجعه کنید.




گفتگو