مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

اگر فکر می‌کنید برای حذف دقیق یک شیء از عکس یا بازسازی پس‌زمینه‌های پیچیده، حتماً به سخت‌افزارهای سرور و مدل‌های ده‌ها میلیارد پارامتری نیاز دارید، Moebius این باور را به چالش می‌کشد. این مدل ثابت می‌کند برای رسیدن به کیفیت صنعتی در ترمیم تصاویر، لزوماً نیازی به مقیاس‌های عظیم نیست.

به نقل از مستندات پروژه که در ۲۲ ژوئن ۲۰۲۶ منتشر شد، مدل Moebius با تنها ۰.۲۲ میلیارد پارامتر توانسته است شکاف میان کارایی و کیفیت را پر کند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی مدل‌های انتشار (Diffusion Models) اشاره کردیم، توازن میان اندازه مدل و دقت خروجی همواره بزرگ‌ترین چالش توسعه‌دهندگان بوده است.

زمینه: چالش مقیاس

بیشتر مدل‌های بنیادی صنعتی، مانند FLUX.1-Fill-Dev، برای مدیریت تکالیف پیچیده بصری به مقیاس‌های colossal (غول‌آسا) تکیه می‌کنند. با این حال، این مدل‌های ۱۰ میلیارد پارامتری هزینه‌های محاسباتی گزافی دارند که استقرار آن‌ها را روی سخت‌افزارهای مصرف‌کننده یا رایانش لبه (Edge Computing) بدون تأخیرهای شدید، تقریباً غیرممکن می‌کند.

فشرده‌سازی‌های ساختاری سنتی اغلب منجر به ایجاد یک «گلوگاه نمایش» (Representation Bottleneck) شدید می‌شوند. مدل Moebius با هدف درهم‌شکستن این روایت «محاسبات سنگین» طراحی شده تا ثابت کند وقتی یک تکلیف به‌طور دقیق تعریف شده باشد، مدل می‌تواند هم 똑س‌تر و هم سریع‌تر باشد.

برای حل این مسئله، تیمی از دانشگاه علوم و فناوری هوایژونگ و LAb VIVO AI ستون فقرات مدل انتشار را با استفاده از بلوک جدیدی به نام تعامل ترکیبی Local-λ (LλMI) بازسازی کردند. این سازوکار، بسترهای مکانی و پیش‌فرض‌های معنایی جهانی را در ماتریس‌های خطی با اندازه ثابت خلاصه می‌کند تا از گلوگاه‌های نمایش که معمولاً در فشرده‌سازی‌های شدید ساختاری رخ می‌دهد، جلوگیری کند.

صفحه پروژه موبیوس

جزئیات فنی و سازوکارها

بر اساس گزارش منتشر شده در صفحه پروژه hustvl.github.io، کارایی این چارچوب مدیون دو نوآوری کلیدی است:

بلوک‌های LλMI: این بلوک‌ها با فشرده‌سازی بافت مکانی و پیش‌فرض‌های معنایی، هر دو نوع توجه (Attention) داخلی و متقاطع را بازتعریف می‌کنند. این امر به مدل اجازه می‌دهد تا از سربار محاسباتی درجه دوم (Quadratic Overhead) عبور کند و بهینه‌تر عمل نماید.
تقطیر چنددانه تطبیقی (Adaptive Multi-Granularity Distillation): در این استراتژی، مدل دانش‌آموز سبک با یک مدل استاد به نام «PixelHacker» همراستا می‌شود. این فرآیند کاملاً در فضای نهان (Latent Space) رخ می‌دهد تا از رمزگشایی‌های گران‌قیمت و زمان‌بر در فضای پیکسلی اجتناب شود.
نظارت چنددانه (Multi-Granularity Supervision): این روش تقطیر، شکاف ظرفیتی را از طریق تراز کردن نظارت‌ها پر می‌کند؛ به گونه‌ای که نظارت‌ها از ویژگی‌های میانی میکروسکوپی تا مسیرهای انتشار ماکروسکوپی را شامل می‌شوند.
توازن دینامیک: برای دستیابی به همراستایی با دقت بالا، از یک مکانیسم وزن‌دهی زیان تطبیقی برای نرم گرادیان (Gradient Norm) در زمان آموزش استفاده شده است تا تعادل بین آموزش و همسویی مدل برقرار شود.

مدل Moebius از چارچوب مدل انتشار نهان (LDM) مجهز به هدایت دسته‌های نهان (LCG) بهره می‌برد. توسعه‌دهندگان با ترسیم «مرز سینرژی تقطیر-معماری»، تضمین کردند که مدل دانش‌آموز حداکثر استدلال معنایی استاد را جذب کند، بدون آنکه دچار اشباع نمایش شود.

بنچمکینگ و تحلیل عملکرد

از نظر عملکرد، Moebius با ۲۲۶ میلیون پارامتر کار می‌کند که کمتر از ۲٪ پارامترهای مدل FLUX.1-Fill-Dev (۱۱.۹ میلیارد) است. با وجود این کاهش شدید، Moebius در ۶ محک (Benchmark) مختلف عملکردی برابر یا حتی بهتر از مدل‌های پیشرو مانند SD3.5 Large-Inpainting دارد. این بنچمکینگ‌ها شامل مجموعه داده Places2 برای مناظر طبیعی و همچنین CelebA-HQ و FFHQ برای صحنه‌های پرتره است؛ جایی که Moebius به‌ویژه در بازسازی بافت‌های پیچیده و تناسبات چهره (Facial Plausibility) می‌درخشد.

بزرگ‌ترین دستاورد برای کاربر نهایی، سرعت استنتاج (Inference) است. Moebius تأخیری تنها ۲۶.۰۱ میلی‌ثانیه در هر گام روی یک GPU واحد دارد. با ترکیب این عدد و گام‌های نمونه‌برداری بهینه، سرعت اجرای کلی بیش از ۱۵ برابر سریع‌تر از مدل‌های ۱۰ میلیارد پارامتری شده است.

از دیدگاه فنی، این دستاورد فرض صنعتی مبنی بر اینکه «تنها راه دستیابی به دقت بالاتر، افزایش اندازه مدل است» را تغییر می‌دهد. این نتایج نشان می‌دهد که برای تکالیف صریح مانند ترمیم تصویر، یک مدل «متخصص» می‌تواند با بهینه‌سازی تعامل میان معماری و تقطیر، مدل‌های «عموم‌پسند اما حجیم» را شکست دهد.

توسعه‌دهندگان اکنون باید به دنبال ادغام این بلوک‌های LλMI در سایر تکالیف تخصصی انتشار باشند. موفقیت Moebius نشان‌دهنده روندی گسترده‌تر است که در آن متخصصان بسیار فشرده می‌توانند جایگزین غول‌های همه‌کاره در مجموعه‌های ویرایش عکس هوش مصنوعی در موبایل شوند.

گام بعدی شما

توسعه‌دهندگان ابزارهای ویرایش عکس باید بررسی کنند که چگونه بلوک‌های LλMI را در سایر تکالیف تخصصی انتشار جایگزین کنند.
پیاده‌سازی مدل‌های متخصص در لبه (Edge) را جایگزین فراخوانی APIهای گران‌قیمت برای عملیات ساده ویرایشی کنید.
روی متدولوژی تقطیر چنددانه برای تبدیل مدل‌های غول‌آسا به نسخه‌های موبایلی تمرکز کنید.

اما داستان انتقال این کارایی به مدل‌های تولید ویدیو حتی پیچیده‌تر است؛ در گزارش بعدی به بررسی چالش‌های تقطیر در ابعاد زمانی خواهیم پرداخت.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه: چالش مقیاس

صفحه پروژه موبیوس

جزئیات فنی و سازوکارها

بر اساس گزارش منتشر شده در صفحه پروژه hustvl.github.io، کارایی این چارچوب مدیون دو نوآوری کلیدی است:

بلوک‌های LλMI: این بلوک‌ها با فشرده‌سازی بافت مکانی و پیش‌فرض‌های معنایی، هر دو نوع توجه (Attention) داخلی و متقاطع را بازتعریف می‌کنند. این امر به مدل اجازه می‌دهد تا از سربار محاسباتی درجه دوم (Quadratic Overhead) عبور کند و بهینه‌تر عمل نماید.
تقطیر چنددانه تطبیقی (Adaptive Multi-Granularity Distillation): در این استراتژی، مدل دانش‌آموز سبک با یک مدل استاد به نام «PixelHacker» همراستا می‌شود. این فرآیند کاملاً در فضای نهان (Latent Space) رخ می‌دهد تا از رمزگشایی‌های گران‌قیمت و زمان‌بر در فضای پیکسلی اجتناب شود.
نظارت چنددانه (Multi-Granularity Supervision): این روش تقطیر، شکاف ظرفیتی را از طریق تراز کردن نظارت‌ها پر می‌کند؛ به گونه‌ای که نظارت‌ها از ویژگی‌های میانی میکروسکوپی تا مسیرهای انتشار ماکروسکوپی را شامل می‌شوند.
توازن دینامیک: برای دستیابی به همراستایی با دقت بالا، از یک مکانیسم وزن‌دهی زیان تطبیقی برای نرم گرادیان (Gradient Norm) در زمان آموزش استفاده شده است تا تعادل بین آموزش و همسویی مدل برقرار شود.

بنچمکینگ و تحلیل عملکرد

گام بعدی شما

توسعه‌دهندگان ابزارهای ویرایش عکس باید بررسی کنند که چگونه بلوک‌های LλMI را در سایر تکالیف تخصصی انتشار جایگزین کنند.
پیاده‌سازی مدل‌های متخصص در لبه (Edge) را جایگزین فراخوانی APIهای گران‌قیمت برای عملیات ساده ویرایشی کنید.
روی متدولوژی تقطیر چنددانه برای تبدیل مدل‌های غول‌آسا به نسخه‌های موبایلی تمرکز کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

زمینه: چالش مقیاس

جزئیات فنی و سازوکارها

بنچمکینگ و تحلیل عملکرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

زمینه: چالش مقیاس

جزئیات فنی و سازوکارها

بنچمکینگ و تحلیل عملکرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

زمینه: چالش مقیاس

جزئیات فنی و سازوکارها

بنچمکینگ و تحلیل عملکرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

زمینه: چالش مقیاس

جزئیات فنی و سازوکارها

بنچمکینگ و تحلیل عملکرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران