تصور کنید یک مدل واحد بتواند هم رابط کاربری گوشی شما را مدیریت کند و هم بازوی یک ربات را به حرکت درآورد. اگر هنوز فکر میکنید برای هر تسک به یک مدل تخصصی نیاز دارید، باید بدانید که قواعد بازی تغییر کرده است.
به نقل از مقالهای که در فوریه ۲۰۲۵ در arXiv منتشر شد، مایکروسافت مدل Magma-8B را معرفی کرده است؛ یک مدل بنیادی (Foundation Model) چندوجهی (Multimodal) با وزنهای باز (Open Weights) که تواناییهای عاملمحور (Agentic) را در یک معماری واحد جمع کرده است.
این مدل در بنچمارکهای سختگیرانه نتایجی تکاندهنده داشته است. طبق گزارش Hugging Face، مدل Magma-8B در تسکهای ابتدایی VisualWebArena به دقت ۹۶.۳ درصد رسیده است، در حالی که GPT-4V تنها ۶۷.۵ درصد موفقیت داشته است. همچنین این مدل در محیطهای موبایل، دسکتاپ و وب، دقتی بین ۵۹.۵ تا ۶۴.۱ درصد ثبت کرده و تنها مدلی است که تمام این طیفها را در تستهای Zero-shot پوشش میدهد.
از نظر فنی، این سیستم بر دو نوآوری متکی است:
- Set-of-Mark: برای شناسایی و تعامل با عناصر رابط کاربری (UI).
- Trace-of-Mark: برای ترسیم مسیرهای حرکتی در محیطهای فیزیکی.
این مدل از استخوانبندی LLaMA-3 و رمزگذار بینایی CLIP-ConvNeXt-XXLarge استفاده میکند تا دستورات زبانی را بر روی پیکسلها و زمان مبنیسازی (Grounding) کند.
همانطور که در تحلیل قبلی ما دربارهی مدلهای چندوجهی متنباز اشاره کردیم، روند فعلی به سمت یکپارچگی کامل در حال حرکت است. این روند با توسعهی مدلهای چندوجهی کوچکتر در مایکروسافت مانند Phi-4 multimodal نیز همسو است که نشان دادهاند حتی با پارامترهای کمتر نیز میتوان در حوزهی گفتار و تصویر به عملکردی در سطح مدلهای بزرگتر دست یافت. Magma-8B با ترکیب دادههای ویدئویی از Ego4D و دادههای رباتیک از Open-X-Embodiment، دیواری را که سالها میان ناوبری دیجیتال و کنترل فیزیکی بود، فرو ریخته است.
برای آموزش این مدل، مایکروسافت از خوشههای پردازشی H100 و MI300 استفاده کرده است. این نشان میدهد که استفاده از سختافزارهای متنوع (Heterogeneous GPU) در محیط Azure ML اکنون به یک استاندارد تبدیل شده است.
با این حال، مایکروسافت هشدار داده که این مدل صرفاً برای اهداف پژوهشی است و نباید در سناریوهای پرخطر یا بدون نظارت انسانی به کار رود. همچنین این مدل فعلاً تنها از زبان انگلیسی پشتیبانی میکند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک ابعاد این موضوع، تحلیل ما دربارهی تراشههای Blackwell را بخوانید.
گام بعدی شما
- بررسی وزنهای مدل تحت لایسنس MIT برای پیادهسازی در پروژههای محلی.
- آزمایش تکنیک Set-of-Mark برای بهبود تعامل مدلهای زبانی با رابطهای گرافیکی.
- دنبال کردن بنچمارکهای جدید در حوزه رباتیک برای سنجش قدرت مدلهای ۸ میلیارد پارامتری.




گفتگو