گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

باید بدانید که اتکای مطلق به متن برای تفکر مدل‌های هوش مصنوعی، در حال تبدیل شدن به یک گلوگاه هزینه‌ای است. تصور کنید مدلی که به‌جای نوشتن صفحات طولانی از تحلیل، منطق خود را در قالب یک تصویر متراکم «ببیند» و پردازش کند.

در حال حاضر، مدل‌های زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) برای حل مسائل پیچیده از زنجیره تفکر (Chain-of-Thought) متنی استفاده می‌کنند که منجر به مصرف بالای توکن و افزایش هزینه‌ها می‌شود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی حافظه در مدل‌های زبانی اشاره کردیم، مدیریت حافظه‌ی KV همواره یکی از چالش‌های اصلی در مقیاس‌پذیری است.

طبق اعلام پژوهشگری به نام Yutong Bian در مقاله منتشر شده در ۹ ژوئن ۲۰۲۶ در وب‌سایت arxiv.org، چارچوبی به نام استدلال بصری (Optical Reasoning) معرفی شده است. این روش به‌جای تولید توالی‌های متنی طولانی، از دو استراتژی بصری بهره می‌برد:

استدلال مبتنی بر تایپوگرافی: بهینه‌سازی چیدمان‌های بصری برای رندر کردن تحلیل‌های متراکم.
استدلال مبتنی بر گرافیک: ترکیب متن با عناصر گرافیکی برای ساخت زنجیره‌های منطقی بصری.

بر اساس مستندات این پژوهش، این سیستم در بنچمارک‌های ریاضی، علمی و مدل‌های درهم‌تنیده، عملکرد مدل‌های متنی را حفظ کرده یا حتی از آن‌ها پیشی گرفته است. به‌طور مشخص، این متد توکن‌های مورد نیاز برای استدلال را به‌طور میانگین ۲۸.۵۷٪ در کارهای متنی و ۱۶٪ در کارهای چندوجهی کاهش داده است.

برای جامعه فنی، این موضوع فرضیه بنیادین «متن به عنوان اکسپرسیو‌ترین medium برای منطق» را به چالش می‌کشد. با تبدیل تصویر به موتور استنتاج، توسعه‌دهندگان می‌توانند نیازهای مربوط به حافظه KV cache را برای مسائل پیچیده به‌طور چشمگیری کاهش دهند. این یعنی «تفکر» در هوش مصنوعی می‌تواند به یک فرآیند بصری بومی تبدیل شود، نه صرفاً ترجمه متن به تصویر.

گام بعدی شما

بررسی مقاله اصلی در arxiv.org برای تحلیل چیدمان‌های گرافیکی مورد استفاده در اثبات‌های ریاضی.
رصد اینکه آیا آزمایشگاه‌های پیشرو این متد را در خطوط لوله آموزش مدل‌های بومی چندوجهی ادغام می‌کنند یا خیر.
تست مدل‌های فعلی با پرامپت‌های بصری برای سنجش میزان توکن مصرفی در مقایسه با خروجی متنی.

ama داستان سخت‌افزاری این تحول حتی پیچیده‌تر است — به تحلیل ما درباره‌ی نسل جدید تراشه‌های استنتاج مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استدلال مبتنی بر تایپوگرافی: بهینه‌سازی چیدمان‌های بصری برای رندر کردن تحلیل‌های متراکم.
استدلال مبتنی بر گرافیک: ترکیب متن با عناصر گرافیکی برای ساخت زنجیره‌های منطقی بصری.

گام بعدی شما

بررسی مقاله اصلی در arxiv.org برای تحلیل چیدمان‌های گرافیکی مورد استفاده در اثبات‌های ریاضی.
رصد اینکه آیا آزمایشگاه‌های پیشرو این متد را در خطوط لوله آموزش مدل‌های بومی چندوجهی ادغام می‌کنند یا خیر.
تست مدل‌های فعلی با پرامپت‌های بصری برای سنجش میزان توکن مصرفی در مقایسه با خروجی متنی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران