تصور کنید مدل زبانی شما بتواند در هزارتویی که هرگز ندیده است حرکت کند، آن هم بدون تکیه به هیچ تصویری. اگر فکر میکنید استدلال بصری فقط با دادههای چندوجهی (Multimodal) ممکن است، باید دیدگاهتان را تغییر دهید.
به نقل از Menlo Research، مدل جدید AlphaMaze با معماری ۱.۵ میلیارد پارامتری، ثابت کرده است که میتوان استدلالهای مکانی پیچیده را تنها از طریق توکنهای متنی به دست آورد. طبق مستندات منتشر شده در Hugging Face، این مدل به جای تولید تصویر برای تحلیل محیط، از توکنهای متنی برای نمایش مختصات، دیوارها و اهداف استفاده میکند.


در سال ۲۰۲۵، تیم سازنده نسخه AlphaMaze-v0.2-1.5B را به صورت وزنهای باز (Open Weights) منتشر کرد. برخلاف رویکردهای پیشین مانند MVoT مایکروسافت، این مدل هیچ تصویری تولید نمیکند. فرآیند آموزش این مدل شامل مراحل زیر است:
- تنظیم دقیق نظارتشده (Supervised Fine-Tuning) با استفاده از LLaMA-Factory
- یادگیری تقویتشده از طریق GRPO (بهینهسازی سیاست نسبی تعمیمیافته) با ابزار Unsloth
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای استدلالی (Reasoning Models) اشاره کردیم، توانایی مدل در حفظ یک نمایش داخلی از مسئله، کلید موفقیت در وظایف پیچیده است. در AlphaMaze، این نمایش داخلی از طریق توکنهای متنی شکل میگیرد.
بر اساس بررسی منابع متعدد، جالبترین یافته این است که افزودن توکنهای اختصاصی برای هزارتوها تأثیری در بهبود عملکرد نداشت و حتی گاهی نتایج را بدتر میکرد. این یعنی مدلهای زبانی توانایی ذاتی عجیبی در درک روابط مکانی از طریق زبان ساده دارند. همچنین، استفاده از GRPO باعث شد امتیازات مدل در بنچمارک MazeBench بهطور چشمگیری افزایش یابد، زیرا مدل مجبور بود مسیرهای معتبر را تولید کند، نه اینکه صرفاً از بین گزینهها یکی را انتخاب کند.
این مدل از توکنهای ساختاریافتهای مانند <|row-col|> و <|up_wall|> استفاده میکند و سپس توالی حرکاتی را برای رسیدن به هدف خروجی میدهد. شما میتوانید این مدل را با استفاده از Transformers و Flash Attention 2 به صورت محلی اجرا کنید.

اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر توسعه عاملهای خودگردان در رباتیک را در گزارشهای آینده بررسی خواهیم کرد.
گام بعدی شما
- مدل AlphaMaze را از Hugging Face دانلود کرده و روی دادههای مکانی خود آزمایش کنید.
- مستندات GRPO را برای بهینهسازی استدلال مدلهای کوچک مطالعه کنید.
- تفاوت بین استدلال متنی و بصری را در بنچمارک MazeBench بسنجید.




گفتگو