رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

تصور کنید مدل زبانی شما بتواند در هزارتویی که هرگز ندیده است حرکت کند، آن هم بدون تکیه به هیچ تصویری. اگر فکر می‌کنید استدلال بصری فقط با داده‌های چندوجهی (Multimodal) ممکن است، باید دیدگاهتان را تغییر دهید.

به نقل از Menlo Research، مدل جدید AlphaMaze با معماری ۱.۵ میلیارد پارامتری، ثابت کرده است که می‌توان استدلال‌های مکانی پیچیده را تنها از طریق توکن‌های متنی به دست آورد. طبق مستندات منتشر شده در Hugging Face، این مدل به جای تولید تصویر برای تحلیل محیط، از توکن‌های متنی برای نمایش مختصات، دیوارها و اهداف استفاده می‌کند.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "unsloth/DeepSeek-R1-GGUF · Huggin

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "Menlo/AlphaMaze-v0.2-1.5B · Hugging

در سال ۲۰۲۵، تیم سازنده نسخه AlphaMaze-v0.2-1.5B را به صورت وزن‌های باز (Open Weights) منتشر کرد. برخلاف رویکردهای پیشین مانند MVoT مایکروسافت، این مدل هیچ تصویری تولید نمی‌کند. فرآیند آموزش این مدل شامل مراحل زیر است:

تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning) با استفاده از LLaMA-Factory
یادگیری تقویت‌شده از طریق GRPO (بهینه‌سازی سیاست نسبی تعمیم‌یافته) با ابزار Unsloth

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی (Reasoning Models) اشاره کردیم، توانایی مدل در حفظ یک نمایش داخلی از مسئله، کلید موفقیت در وظایف پیچیده است. در AlphaMaze، این نمایش داخلی از طریق توکن‌های متنی شکل می‌گیرد.

بر اساس بررسی منابع متعدد، جالب‌ترین یافته این است که افزودن توکن‌های اختصاصی برای هزارتوها تأثیری در بهبود عملکرد نداشت و حتی گاهی نتایج را بدتر می‌کرد. این یعنی مدل‌های زبانی توانایی ذاتی عجیبی در درک روابط مکانی از طریق زبان ساده دارند. همچنین، استفاده از GRPO باعث شد امتیازات مدل در بنچمارک MazeBench به‌طور چشم‌گیری افزایش یابد، زیرا مدل مجبور بود مسیرهای معتبر را تولید کند، نه اینکه صرفاً از بین گزینه‌ها یکی را انتخاب کند.

این مدل از توکن‌های ساختاریافته‌ای مانند <|row-col|> و <|up_wall|> استفاده می‌کند و سپس توالی حرکاتی را برای رسیدن به هدف خروجی می‌دهد. شما می‌توانید این مدل را با استفاده از Transformers و Flash Attention 2 به صورت محلی اجرا کنید.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "Menlo/AlphaMaze-v0.2-1.5B · Huggi

اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر توسعه عامل‌های خودگردان در رباتیک را در گزارش‌های آینده بررسی خواهیم کرد.

گام بعدی شما

مدل AlphaMaze را از Hugging Face دانلود کرده و روی داده‌های مکانی خود آزمایش کنید.
مستندات GRPO را برای بهینه‌سازی استدلال مدل‌های کوچک مطالعه کنید.
تفاوت بین استدلال متنی و بصری را در بنچمارک MazeBench بسنجید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "unsloth/DeepSeek-R1-GGUF · Huggin

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "Menlo/AlphaMaze-v0.2-1.5B · Hugging

تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning) با استفاده از LLaMA-Factory
یادگیری تقویت‌شده از طریق GRPO (بهینه‌سازی سیاست نسبی تعمیم‌یافته) با ابزار Unsloth

کاربر می‌خواهد یک ترجمه فارسی مختصر برای متن جایگزین تصویر (alt text) در مقاله‌ای با عنوان "Menlo/AlphaMaze-v0.2-1.5B · Huggi

گام بعدی شما

مدل AlphaMaze را از Hugging Face دانلود کرده و روی داده‌های مکانی خود آزمایش کنید.
مستندات GRPO را برای بهینه‌سازی استدلال مدل‌های کوچک مطالعه کنید.
تفاوت بین استدلال متنی و بصری را در بنچمارک MazeBench بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از AlphaMaze: استدلال بصری بدون نیاز به تصویر

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران