تصور کنید مدلی با ۴ میلیارد پارامتر، در استدلالهای پیچیده بصری، همتراز با غولی ۷ برابر بزرگتر از خود باشد. این اتفاق دیگر یک فرضیه نیست؛ بلکه نتیجهی رویکردی است که مدل را مجبور میکند «راه حل خود را بهصورت بصری نمایش دهد».
بسیاری از مدلهای زبانی-بصری (Vision-Language Models - VLM) استدلالهای خود را بهصورت متنی تولید میکنند، اما هرگز دقیقاً نمیگویند کدام بخش از تصویر را مبنای تصمیم خود قرار دادهاند. این عدم شفافیت، نظارت بر مدل یا تأیید دلیل رسیدن به یک نتیجه خاص را دشوار میکند. همانطور که در تحلیلهای پیشین ما دربارهی عاملهای هوش مصنوعی (AI Agents) اشاره کردیم، شفافیت در زنجیره تفکر، کلید رسیدن به قابلیتهای سطح انسانی است.
طبق گزارش منتشر شده در ۱۵ ژوئن ۲۰۲۶ در arxiv.org، محققان با پیوند دادن افکار میانی مدل به نواحی دقیق تصویر، این مشکل را حل کردهاند. برای دستیابی به این هدف، آنها از مدل Gemma3-4B-IT و یک خط لولهی سنتز مقیاسپذیر استفاده کردند. در این سیستم، ردپای استدلالها استخراج شده و اشیاء بصری مورد نیاز توسط یک عامل مبتنی بر SAM3 شناسایی میشوند.
بر اساس مستندات پژوهشی، اجزای کلیدی این معماری عبارتاند از:
- یادگیری تقویتشدهی آگاه به مبنیسازی (Grounding-aware RL): سیستمی که پاداشهای صحت پاسخ را با پاداشهای متراکم برای مبنیسازی (Grounding) ترکیب میکند تا ارجاعات مدل با شواهد تصویر همسو شوند.
- تخصصیسازی مبنیسازی: استفاده از «مبنیسازی نقطهای» برای وظایف شمارش و «مبنیسازی جعبهای» (Box Grounding) برای ارتقای استدلالهای مکانی.
نتیجه این تغییر، جهشی چشمگیر در بهرهوری است. مدلهای ۴ میلیاردی با این قابلیت، در چهار بنچمارک استدلال مکانی، با مدل Gemma3-27B-IT برابری کرده یا از آن پیشی گرفتهاند.
این یافته، این فرض رایج را که استدلال مکانی سطح بالا نیازمند تعداد پارامترهای عظیم است، به چالش میکشد. به نظر میرسد گلوگاه عملکرد VLMها، نه اندازه مدل، بلکه دقت همراستاسازی بین استدلال زبانی و شواهد بصری در طول آموزش است. این رویکرد در بهینهسازی فرآیند آموزش، یادآور تلاشهای پروژه INFUSER برای جایگزینی سختی مسئله با امتیاز تأثیر در ارتقای بنچمارکهای استدلالی است که نشان میدهد تغییر در استراتژی آموزش میتواند نتایجی به مراتب بهتر از افزایش صرف پارامترها داشته باشد.
گام بعدی شما
- بررسی متدهای مبنیسازی در مدلهای کوچک برای کاهش هزینههای استنتاج (Inference).
- دنبال کردن قابلیت تعمیم این روش یادگیری تقویتشده به خانوادههای مدلهای بزرگتر.
- تست مدلهای بازمتن با قابلیت Grounding برای کاربردهای صنعتی نیازمند دقت مکانی.
اما تأثیر این رویکرد بر کاهش هزینههای عملیاتی در لبهی شبکه حتی حیاتیتر است — به تحلیل ما دربارهی رایانش لبه مراجعه کنید.




گفتگو