مدل انتشار iLLaDA در استدلال پایه با Qwen2.5 برابری کرد

تصور کنید معماری هوش مصنوعی از پیش‌بینی خطی کلمات به یک فرآیند پالایش موازی تغییر کند. این تحول در قلب iLLaDA نهفته است؛ مدل ۸ میلیارد پارامتری جدیدی که توانایی استدلال پایه در آن با مدل استاندارد صنعت یعنی Qwen2.5 7B برابری می‌کند و سلطه دیرینه مدل‌های خودبازگشتی (Autoregressive) را به چالش می‌کشد.

به نقل از تحلیل فنی وب‌سایت the-decoder.com در ۲۷ ژوئن ۲۰۲۶، اکثر مدل‌های زبانی بزرگ فعلی مثل GPT یا Claude، متن را از چپ به راست تولید می‌کنند. اما مدل انتشار (Diffusion Model) با توالی‌هایی از توکن‌های ماسک‌شده شروع کرده و طی چندین مرحله، آن‌ها را به متنی منسجم تبدیل می‌کند؛ دقیقاً مشابه روشی که مدل‌های تولید تصویر، یک عکس را از دل نویز بیرون می‌کشند. این سازوکار اجازه می‌دهد هر موقعیت در توالی، به‌طور هم‌زمان به تمام موقعیت‌های دیگر توجه کند و جریان اطلاعات دوطرفه ایجاد شود. این رویکرد در تلاش برای غلبه بر چالش‌های ساختاری است، درست مانند راهکارهای Uni-E برای حذف خطای توزیع در مدل‌های انتشار زبانی که گامی در جهت پایداری بیشتر این معماری‌ها بود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی تکامل معماری‌های ترنسفورمر اشاره کردیم، تلاش برای خروج از حالت خطی همواره با چالش کیفیت همراه بوده است. iLLaDA (مخفف improved LLaDA) با مدل‌های اخیر متفاوت است. در حالی که گوگل دیپ‌مایند در ژوئن ۲۰۲۶ مدل DiffusionGemma را با اولویت سرعت بر کیفیت عرضه کرد، iLLaDA از پایه و با ۱۲ تریلیون توکن آموزش دیده تا حداکثر عملکرد شناختی را به دست آورد.

بر اساس مستندات منتشر شده، داده‌های کلیدی عملکرد iLLaDA 8B عبارت‌اند از:

استدلال BBH: ۷۱.۳ امتیاز (برتری نسبت به ۶۳.۹ امتیاز Qwen2.5 7B)
وظایف عمومی MMLU: ۷۴.۸ امتیاز
ریاضیات GSM8K: ۸۱.۹ امتیاز
کدنویسی HumanEval: ۵۰.۰ امتیاز

در آزمون‌های رویارویی، iLLaDA با میانگین امتیاز ۶۳.۹، مدل Dream 7B را که امتیاز ۶۱.۴ داشت، شکست داد. این نقطه عطف از آن جهت اهمیت دارد که Dream از یک نقطه بازرسی (Checkpoint) موجود در Qwen2.5 تنظیم شده بود، اما iLLaDA هیچ پیش‌زمینه خودبازگشتی نداشت.

با این حال، طبق گزارش پژوهشگران، شکاف عملکردی در سطح دستورات همچنان پابرجاست. مدل iLLaDA-Instruct امتیاز ۶۷.۱ را کسب کرد که به‌طور قابل‌توجهی پایین‌تر از ۷۷.۱ امتیاز Qwen2.5 7B Instruct است. دلیل این نقص، نبودِ فرآیند گسترده همراستاسازی (Alignment) از طریق یادگیری تقویتی در iLLaDA است.

برای جامعه فنی، این نتایج نشان می‌دهد که معماری‌های انتشار می‌توانند در بازیابی دانش خام و استدلال پایه با مدل‌های خودبازگشتی برابری کنند، اما در مراحل تنظیم دقیق (Fine-tuning) برای تبدیل شدن به دستیارهای چت، دچار مشکل می‌شوند. نویسندگان همچنین اشاره کردند که iLLaDA در وظایف بسیار پیچیده، گاهی دچار حلقه‌های تکرار در استدلال می‌شود.

گام بعدی شما

تحلیل مقایسه‌ای بین خروجی‌های iLLaDA و مدل‌های autoregressive برای شناسایی تفاوت‌های کیفی در ساختار جملات.
رصد به‌روزرسانی‌های احتمالی iLLaDA در زمینه استفاده از RLHF برای کاهش شکاف دستورات.
بررسی احتمال ترکیب معماری‌های انتشار و خودبازگشتی در مدل‌های آینده.

اما داستان سخت‌افزاری مورد نیاز برای اجرای موازی این مدل‌ها حتی پیچیده‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی حافظه VRAM در استنتاج مدل‌های حجیم مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات منتشر شده، داده‌های کلیدی عملکرد iLLaDA 8B عبارت‌اند از:

استدلال BBH: ۷۱.۳ امتیاز (برتری نسبت به ۶۳.۹ امتیاز Qwen2.5 7B)
وظایف عمومی MMLU: ۷۴.۸ امتیاز
ریاضیات GSM8K: ۸۱.۹ امتیاز
کدنویسی HumanEval: ۵۰.۰ امتیاز

گام بعدی شما

تحلیل مقایسه‌ای بین خروجی‌های iLLaDA و مدل‌های autoregressive برای شناسایی تفاوت‌های کیفی در ساختار جملات.
رصد به‌روزرسانی‌های احتمالی iLLaDA در زمینه استفاده از RLHF برای کاهش شکاف دستورات.
بررسی احتمال ترکیب معماری‌های انتشار و خودبازگشتی در مدل‌های آینده.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتشار iLLaDA در استدلال پایه با Qwen2.5 برابری کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتشار iLLaDA در استدلال پایه با Qwen2.5 برابری کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتشار iLLaDA در استدلال پایه با Qwen2.5 برابری کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتشار iLLaDA در استدلال پایه با Qwen2.5 برابری کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران