استنتاج در مدلهای چندوجهی (VLM) اکنون از یک هزینه ثابت به یک تلاش پویا تبدیل شده است. اگر هنوز تصور میکنید برای دستیابی به دقت بالاتر در تحلیل تصاویر، باید به صورت خطی منابع محاسباتی (Compute) را افزایش دهید، AVIS این فرض را به چالش میکشد.
بر اساس مستندات منتشر شده در ۱۱ ژوئن ۲۰۲۶، چارچوب AVIS با مدیریت پویا و همزمانِ بافت بصری و زنجیره استدلال، «مالیات محاسباتی» ناشی از تصاویر با رزولوشن بالا و مسیرهای طولانی زنجیره تفکر (Chain-of-Thought) را حذف میکند. همانطور که در تحلیل قبلی ما دربارهی چارچوب Uni-E اشاره کردیم، تلاش برای بهینهسازی توزیع مدلها یک روند مستمر است، اما AVIS این بهینهسازی را به سطح عملیاتی استنتاج میبرد.
طبق گزارش پژوهشگران، این سیستم از دو مکانیزم اصلی برای کاهش هزینهها استفاده میکند:
- مقیاسگذاری بافت بصری (VCS): با استفاده از هرس KDV (Key Diversity Visual)، یک قانون مبتنی بر کلید با پیچیدگی $O(N)$ که بدون نیاز به آموزش، توکنهای بصری تکراری را در مرحله پیشقاببندی (Prefill) حذف میکند.
- مقیاسگذاری استدلال بصری (VRS): بهرهگیری از یک پیشبین دشواری (Difficulty Predictor) برای اجرای تطبیقی «خود-سازگاری»، تا دقیقاً تعداد مراحل استدلال مورد نیاز برای هر پرسوجوی خاص تعیین شود.
به نقل از نویسندگان مقاله، AVIS با استنتاج پیشقاببندی مشترک (Shared-Prefill) سازگار است؛ به این معنا که تمامی مسیرهای استدلال میتوانند از یک پاس پیشقاببندی و یک KV-Cache واحد استفاده کنند. این قابلیت حتی در مدلهای VLM که با یادگیری تقویتشده (RL) پس-آموزش دیدهاند نیز موثر است.
برای جامعه فنی، این تحول به معنای گذار از «ظرفیت ایستا» به «تلاش پویا» است. AVIS با جداسازی عملکرد مدل از هزینههای ثابت استنتاج، امکان دستیابی به نرخ پردازش (Throughput) بالاتر را در محیطهایی که حساسیت زمانی دارند، فراهم میکند.
گام بعدی شما
- بررسی یکپارچگی متد هرس KDV در فریمورکهای سروینگ mainstream مانند vLLM یا TensorRT-LLM.
- ارزیابی تأثیر VRS بر کاهش تأخیر (Latency) در کاربردهای واقعی تحلیل تصویر.
- مطالعه مقایسهای AVIS با روشهای Distillation برای کاهش هزینه استنتاج.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو