باید بدانید که اتکای مطلق به متن برای تفکر مدلهای هوش مصنوعی، در حال تبدیل شدن به یک گلوگاه هزینهای است. تصور کنید مدلی که بهجای نوشتن صفحات طولانی از تحلیل، منطق خود را در قالب یک تصویر متراکم «ببیند» و پردازش کند.
در حال حاضر، مدلهای زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) برای حل مسائل پیچیده از زنجیره تفکر (Chain-of-Thought) متنی استفاده میکنند که منجر به مصرف بالای توکن و افزایش هزینهها میشود. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی حافظه در مدلهای زبانی اشاره کردیم، مدیریت حافظهی KV همواره یکی از چالشهای اصلی در مقیاسپذیری است.
طبق اعلام پژوهشگری به نام Yutong Bian در مقاله منتشر شده در ۹ ژوئن ۲۰۲۶ در وبسایت arxiv.org، چارچوبی به نام استدلال بصری (Optical Reasoning) معرفی شده است. این روش بهجای تولید توالیهای متنی طولانی، از دو استراتژی بصری بهره میبرد:
- استدلال مبتنی بر تایپوگرافی: بهینهسازی چیدمانهای بصری برای رندر کردن تحلیلهای متراکم.
- استدلال مبتنی بر گرافیک: ترکیب متن با عناصر گرافیکی برای ساخت زنجیرههای منطقی بصری.
بر اساس مستندات این پژوهش، این سیستم در بنچمارکهای ریاضی، علمی و مدلهای درهمتنیده، عملکرد مدلهای متنی را حفظ کرده یا حتی از آنها پیشی گرفته است. بهطور مشخص، این متد توکنهای مورد نیاز برای استدلال را بهطور میانگین ۲۸.۵۷٪ در کارهای متنی و ۱۶٪ در کارهای چندوجهی کاهش داده است.
برای جامعه فنی، این موضوع فرضیه بنیادین «متن به عنوان اکسپرسیوترین medium برای منطق» را به چالش میکشد. با تبدیل تصویر به موتور استنتاج، توسعهدهندگان میتوانند نیازهای مربوط به حافظه KV cache را برای مسائل پیچیده بهطور چشمگیری کاهش دهند. این یعنی «تفکر» در هوش مصنوعی میتواند به یک فرآیند بصری بومی تبدیل شود، نه صرفاً ترجمه متن به تصویر.
گام بعدی شما
- بررسی مقاله اصلی در arxiv.org برای تحلیل چیدمانهای گرافیکی مورد استفاده در اثباتهای ریاضی.
- رصد اینکه آیا آزمایشگاههای پیشرو این متد را در خطوط لوله آموزش مدلهای بومی چندوجهی ادغام میکنند یا خیر.
- تست مدلهای فعلی با پرامپتهای بصری برای سنجش میزان توکن مصرفی در مقایسه با خروجی متنی.
ama داستان سختافزاری این تحول حتی پیچیدهتر است — به تحلیل ما دربارهی نسل جدید تراشههای استنتاج مراجعه کنید.
گفتگو