باید بدانید که مرز میان تولید تصویر و متن در حال محو شدن است. تصور کنید مدلهای زبانی دیگر نیازی به توکنهای گسسته نداشته باشند و مستقیماً در فضای بردار معنایی عمل کنند.
برای سالها، مدلهای تصویر از مدل انتشار (Diffusion Model) پیوسته و مدلهای زبان از توکنهای گسسته استفاده میکردند. همانطور که در تحلیلهای پیشین ما دربارهی معماریهای ترنسفورمر اشاره کردیم، این تفکیک باعث میشد بهینهسازیهای دنیای تصویر به راحتی به متن منتقل نشوند.
طبق گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در وبسایت arxiv.org، مدل Embedded Language Flows (ELF) نشان میدهد که مدلهای انتشار پیوسته میتوانند در تولید زبان از رقبای گسسته خود پیشی بگیرند. ELF از تطبیق جریان (Flow Matching) در زمان پیوسته استفاده میکند تا عمدتاً در فضای بردار معنایی (Embedding) عمل کند. بر اساس مستندات این پژوهش، این مدل تنها در گام زمانی نهایی و از طریق یک شبکه با وزنهای مشترک، خروجی را به توکنهای گسسته تبدیل میکند. این معماری امکان استفاده از تکنیکهای اثباتشده در تصاویر را فراهم میکند:
- هدایت بدون طبقهبند (Classifier-Free Guidance - CFG) برای کنترل دقیقتر خروجی.
- کاهش گامهای نمونهبرداری برای تسریع استنتاج (Inference).
این تغییر، فرض بنیادین مبنی بر ضرورت کار با توکنهای گسسته در تمام مراحل تولید متن را به چالش میکشد. با تبدیل متن به یک «جریان» در فضای بردار معنایی، اکنون میتوان یک دهه بهینهسازی در تولید تصویر را به زبان منتقل کرد که احتمالاً هزینههای محاسباتی سنتز متن باکیفیت را به شدت کاهش میدهد.
گام بعدی شما
- بررسی پیادهسازی شبکه با وزنهای مشترک در مخازن کد ELF برای ارزیابی کارایی روی دادههای سفارشی.
- مطالعه اثرات CFG در مدلهای زبانی پیوسته برای کنترل بهتر لحن و محتوا.
- دنبال کردن مقیاسپذیری ELF در مدلهای بزرگتر (Frontier-sized models).
اما تأثیر این رویکرد بر مصرف حافظه در مقیاس میلیاردی پارامترها هنوز ناشناخته است — به تحلیل ما دربارهی بهینهسازیهای حافظه در LLMها مراجعه کنید.




گفتگو