چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

استنتاج در مدل‌های چندوجهی (VLM) اکنون از یک هزینه ثابت به یک تلاش پویا تبدیل شده است. اگر هنوز تصور می‌کنید برای دستیابی به دقت بالاتر در تحلیل تصاویر، باید به صورت خطی منابع محاسباتی (Compute) را افزایش دهید، AVIS این فرض را به چالش می‌کشد.

بر اساس مستندات منتشر شده در ۱۱ ژوئن ۲۰۲۶، چارچوب AVIS با مدیریت پویا و هم‌زمانِ بافت بصری و زنجیره استدلال، «مالیات محاسباتی» ناشی از تصاویر با رزولوشن بالا و مسیرهای طولانی زنجیره تفکر (Chain-of-Thought) را حذف می‌کند. همان‌طور که در تحلیل قبلی ما درباره‌ی چارچوب Uni-E اشاره کردیم، تلاش برای بهینه‌سازی توزیع مدل‌ها یک روند مستمر است، اما AVIS این بهینه‌سازی را به سطح عملیاتی استنتاج می‌برد.

طبق گزارش پژوهشگران، این سیستم از دو مکانیزم اصلی برای کاهش هزینه‌ها استفاده می‌کند:

مقیاس‌گذاری بافت بصری (VCS): با استفاده از هرس KDV (Key Diversity Visual)، یک قانون مبتنی بر کلید با پیچیدگی $O(N)$ که بدون نیاز به آموزش، توکن‌های بصری تکراری را در مرحله پیش‌قاب‌بندی (Prefill) حذف می‌کند.
مقیاس‌گذاری استدلال بصری (VRS): بهره‌گیری از یک پیش‌بین دشواری (Difficulty Predictor) برای اجرای تطبیقی «خود-سازگاری»، تا دقیقاً تعداد مراحل استدلال مورد نیاز برای هر پرس‌وجوی خاص تعیین شود.

به نقل از نویسندگان مقاله، AVIS با استنتاج پیش‌قاب‌بندی مشترک (Shared-Prefill) سازگار است؛ به این معنا که تمامی مسیرهای استدلال می‌توانند از یک پاس پیش‌قاب‌بندی و یک KV-Cache واحد استفاده کنند. این قابلیت حتی در مدل‌های VLM که با یادگیری تقویت‌شده (RL) پس-آموزش دیده‌اند نیز موثر است.

برای جامعه فنی، این تحول به معنای گذار از «ظرفیت ایستا» به «تلاش پویا» است. AVIS با جداسازی عملکرد مدل از هزینه‌های ثابت استنتاج، امکان دستیابی به نرخ پردازش (Throughput) بالاتر را در محیط‌هایی که حساسیت زمانی دارند، فراهم می‌کند.

گام بعدی شما

بررسی یکپارچگی متد هرس KDV در فریم‌ورک‌های سروینگ mainstream مانند vLLM یا TensorRT-LLM.
ارزیابی تأثیر VRS بر کاهش تأخیر (Latency) در کاربردهای واقعی تحلیل تصویر.
مطالعه مقایسه‌ای AVIS با روش‌های Distillation برای کاهش هزینه استنتاج.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق گزارش پژوهشگران، این سیستم از دو مکانیزم اصلی برای کاهش هزینه‌ها استفاده می‌کند:

مقیاس‌گذاری بافت بصری (VCS): با استفاده از هرس KDV (Key Diversity Visual)، یک قانون مبتنی بر کلید با پیچیدگی $O(N)$ که بدون نیاز به آموزش، توکن‌های بصری تکراری را در مرحله پیش‌قاب‌بندی (Prefill) حذف می‌کند.
مقیاس‌گذاری استدلال بصری (VRS): بهره‌گیری از یک پیش‌بین دشواری (Difficulty Predictor) برای اجرای تطبیقی «خود-سازگاری»، تا دقیقاً تعداد مراحل استدلال مورد نیاز برای هر پرس‌وجوی خاص تعیین شود.

گام بعدی شما

بررسی یکپارچگی متد هرس KDV در فریم‌ورک‌های سروینگ mainstream مانند vLLM یا TensorRT-LLM.
ارزیابی تأثیر VRS بر کاهش تأخیر (Latency) در کاربردهای واقعی تحلیل تصویر.
مطالعه مقایسه‌ای AVIS با روش‌های Distillation برای کاهش هزینه استنتاج.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران