چرا مدل‌های انتشار پیوسته در تولید متن از مدل‌های گسسته پیشی می‌گیرند؟

باید بدانید که مرز میان تولید تصویر و متن در حال محو شدن است. تصور کنید مدل‌های زبانی دیگر نیازی به توکن‌های گسسته نداشته باشند و مستقیماً در فضای بردار معنایی عمل کنند.

برای سال‌ها، مدل‌های تصویر از مدل انتشار (Diffusion Model) پیوسته و مدل‌های زبان از توکن‌های گسسته استفاده می‌کردند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی معماری‌های ترنسفورمر اشاره کردیم، این تفکیک باعث می‌شد بهینه‌سازی‌های دنیای تصویر به راحتی به متن منتقل نشوند.

طبق گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در وب‌سایت arxiv.org، مدل Embedded Language Flows (ELF) نشان می‌دهد که مدل‌های انتشار پیوسته می‌توانند در تولید زبان از رقبای گسسته خود پیشی بگیرند. ELF از تطبیق جریان (Flow Matching) در زمان پیوسته استفاده می‌کند تا عمدتاً در فضای بردار معنایی (Embedding) عمل کند. بر اساس مستندات این پژوهش، این مدل تنها در گام زمانی نهایی و از طریق یک شبکه با وزن‌های مشترک، خروجی را به توکن‌های گسسته تبدیل می‌کند. این معماری امکان استفاده از تکنیک‌های اثبات‌شده در تصاویر را فراهم می‌کند:

هدایت بدون طبقه‌بند (Classifier-Free Guidance - CFG) برای کنترل دقیق‌تر خروجی.
کاهش گام‌های نمونه‌برداری برای تسریع استنتاج (Inference).

این تغییر، فرض بنیادین مبنی بر ضرورت کار با توکن‌های گسسته در تمام مراحل تولید متن را به چالش می‌کشد. با تبدیل متن به یک «جریان» در فضای بردار معنایی، اکنون می‌توان یک دهه بهینه‌سازی در تولید تصویر را به زبان منتقل کرد که احتمالاً هزینه‌های محاسباتی سنتز متن باکیفیت را به شدت کاهش می‌دهد.

گام بعدی شما

بررسی پیاده‌سازی شبکه با وزن‌های مشترک در مخازن کد ELF برای ارزیابی کارایی روی داده‌های سفارشی.
مطالعه اثرات CFG در مدل‌های زبانی پیوسته برای کنترل بهتر لحن و محتوا.
دنبال کردن مقیاس‌پذیری ELF در مدل‌های بزرگ‌تر (Frontier-sized models).

اما تأثیر این رویکرد بر مصرف حافظه در مقیاس میلیاردی پارامترها هنوز ناشناخته است — به تحلیل ما درباره‌ی بهینه‌سازی‌های حافظه در LLMها مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

هدایت بدون طبقه‌بند (Classifier-Free Guidance - CFG) برای کنترل دقیق‌تر خروجی.
کاهش گام‌های نمونه‌برداری برای تسریع استنتاج (Inference).

گام بعدی شما

بررسی پیاده‌سازی شبکه با وزن‌های مشترک در مخازن کد ELF برای ارزیابی کارایی روی داده‌های سفارشی.
مطالعه اثرات CFG در مدل‌های زبانی پیوسته برای کنترل بهتر لحن و محتوا.
دنبال کردن مقیاس‌پذیری ELF در مدل‌های بزرگ‌تر (Frontier-sized models).

چرا مدل‌های انتشار پیوسته در تولید متن از مدل‌های گسسته پیشی می‌گیرند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های انتشار پیوسته در تولید متن از مدل‌های گسسته پیشی می‌گیرند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های انتشار پیوسته در تولید متن از مدل‌های گسسته پیشی می‌گیرند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های انتشار پیوسته در تولید متن از مدل‌های گسسته پیشی می‌گیرند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران