پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

تصور کنید یک مدل واحد بتواند هم رابط کاربری گوشی شما را مدیریت کند و هم بازوی یک ربات را به حرکت درآورد. اگر هنوز فکر می‌کنید برای هر تسک به یک مدل تخصصی نیاز دارید، باید بدانید که قواعد بازی تغییر کرده است.

به نقل از مقاله‌ای که در فوریه ۲۰۲۵ در arXiv منتشر شد، مایکروسافت مدل Magma-8B را معرفی کرده است؛ یک مدل بنیادی (Foundation Model) چندوجهی (Multimodal) با وزن‌های باز (Open Weights) که توانایی‌های عامل‌محور (Agentic) را در یک معماری واحد جمع کرده است.

این مدل در بنچمارک‌های سخت‌گیرانه نتایجی تکان‌دهنده داشته است. طبق گزارش Hugging Face، مدل Magma-8B در تسک‌های ابتدایی VisualWebArena به دقت ۹۶.۳ درصد رسیده است، در حالی که GPT-4V تنها ۶۷.۵ درصد موفقیت داشته است. همچنین این مدل در محیط‌های موبایل، دسکتاپ و وب، دقتی بین ۵۹.۵ تا ۶۴.۱ درصد ثبت کرده و تنها مدلی است که تمام این طیف‌ها را در تست‌های Zero-shot پوشش می‌دهد.

از نظر فنی، این سیستم بر دو نوآوری متکی است:

Set-of-Mark: برای شناسایی و تعامل با عناصر رابط کاربری (UI).
Trace-of-Mark: برای ترسیم مسیرهای حرکتی در محیط‌های فیزیکی.

این مدل از استخوان‌بندی LLaMA-3 و رمزگذار بینایی CLIP-ConvNeXt-XXLarge استفاده می‌کند تا دستورات زبانی را بر روی پیکسل‌ها و زمان مبنی‌سازی (Grounding) کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های چندوجهی متن‌باز اشاره کردیم، روند فعلی به سمت یکپارچگی کامل در حال حرکت است. این روند با توسعه‌ی مدل‌های چندوجهی کوچک‌تر در مایکروسافت مانند Phi-4 multimodal نیز هم‌سو است که نشان داده‌اند حتی با پارامترهای کمتر نیز می‌توان در حوزه‌ی گفتار و تصویر به عملکردی در سطح مدل‌های بزرگ‌تر دست یافت. Magma-8B با ترکیب داده‌های ویدئویی از Ego4D و داده‌های رباتیک از Open-X-Embodiment، دیواری را که سال‌ها میان ناوبری دیجیتال و کنترل فیزیکی بود، فرو ریخته است.

برای آموزش این مدل، مایکروسافت از خوشه‌های پردازشی H100 و MI300 استفاده کرده است. این نشان می‌دهد که استفاده از سخت‌افزارهای متنوع (Heterogeneous GPU) در محیط Azure ML اکنون به یک استاندارد تبدیل شده است.

با این حال، مایکروسافت هشدار داده که این مدل صرفاً برای اهداف پژوهشی است و نباید در سناریوهای پرخطر یا بدون نظارت انسانی به کار رود. همچنین این مدل فعلاً تنها از زبان انگلیسی پشتیبانی می‌کند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ برای درک ابعاد این موضوع، تحلیل ما درباره‌ی تراشه‌های Blackwell را بخوانید.

گام بعدی شما

بررسی وزن‌های مدل تحت لایسنس MIT برای پیاده‌سازی در پروژه‌های محلی.
آزمایش تکنیک Set-of-Mark برای بهبود تعامل مدل‌های زبانی با رابط‌های گرافیکی.
دنبال کردن بنچمارک‌های جدید در حوزه رباتیک برای سنجش قدرت مدل‌های ۸ میلیارد پارامتری.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

از نظر فنی، این سیستم بر دو نوآوری متکی است:

Set-of-Mark: برای شناسایی و تعامل با عناصر رابط کاربری (UI).
Trace-of-Mark: برای ترسیم مسیرهای حرکتی در محیط‌های فیزیکی.

گام بعدی شما

بررسی وزن‌های مدل تحت لایسنس MIT برای پیاده‌سازی در پروژه‌های محلی.
آزمایش تکنیک Set-of-Mark برای بهبود تعامل مدل‌های زبانی با رابط‌های گرافیکی.
دنبال کردن بنچمارک‌های جدید در حوزه رباتیک برای سنجش قدرت مدل‌های ۸ میلیارد پارامتری.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران