اگر تصور میکردید مدلهای انتشار ماسکدار هرگز به سرعت مدلهای اتورگرسیو میرسند، باید نگاهی به معماری IMDM بیندازید. این مدل توانسته است سد ریاضیاتی «خطای فاکتوریزاسیون» را که تا پیش از این تولید سریع در این معماریها را غیرممکن میکرد، بهطور کامل دور بزند.
مدلهای انتشار ماسکدار (Masked Diffusion Models یا MDM) بهدلیل قابلیت رمزگشایی موازی و چارچوب ساده برای تولید شرطی، همواره مورد توجه بودهاند. اما طبق مستنداتی که در ۱۱ مه ۲۰۲۶ منتشر شد، مدلهای استاندارد MDM بر ماسکهای تکحالته و قطعی تکیه میکنند؛ امری که یک کف ریاضی برای خطاهای فاکتوریزاسیون ایجاد میکند که حتی با آموزش بیشتر مدل نیز کاهش نمییابد.
همانطور که در تحلیلهای پیشین ما دربارهی معماریهای جایگزین ترنسفورمر اشاره کردیم، چالش اصلی همواره توازن میان سرعت و دقت بوده است. اکنون بر اساس مقالهای در arxiv.org، معماری Infinite Mask Diffusion Model (یا IMDM) با معرفی یک ماسک تصادفی با حالتهای نامحدود، این محدودیت را برطرف کرده است. ویژگیهای فنی این رویکرد عبارتند از:
- سازگاری کامل با وزنهای پیشآموزشدیده (Pre-trained weights) موجود
- توانایی یافتن راهکارهای بهینه در تکالیف مصنوعی (Synthetic tasks) که MDMهای استاندارد در آنها شکست میخورند
- عملکرد برتر در تقطیر (Distillation) چندگامی روی مجموعهدادههای LM1B و OpenWebText
برای جامعه فنی، این دستاورد معنای آن است که محدودیتهای MDM یک نقص ساختاری کلی نبوده، بلکه صرفاً یک مشکل در نحوه ماسکگذاری بوده است. با اثبات اینکه رویکرد تصادفی میتواند خطای فاکتوریزاسیون را حذف کند، مسیر برای رقابت MDMها با سرعت استنتاج (Inference) مدلهای اتورگرسیو تقطیرشده هموار شده است.
گام بعدی شما
- بررسی مخزن کد IMDM برای تست سازگاری با وزنهای مدلهای پیشآموزشدیده خود
- تحلیل اثر این معماری بر کاهش هزینههای محاسباتی در استقرار مدلهای تولید متن
- رصد نتایج مقیاسپذیری این روش در مدلهایی با میلیاردها پارامتر
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو