اگر تصور میکنید مدلهای فعلی شما واقعاً ویدیو را «میبینند»، در اشتباهید؛ آنها صرفاً در حال حدس زدن بازههای زمانی هستند. باید بدانید که استاندارد درک بصری همین حالا تغییر کرده و اگر استک چندوجهی شما نتواند زمانبندیهای دقیق را مدیریت کند، از رقابت عقب افتادهاید.
در ۲۳ سپتامبر ۲۰۲۵، سری مدلهای Qwen3-VL پردهبرداری شد. این مدلهای چندوجهی (Multimodal) شامل نسخههای متراکم و مخلوط خبرگان (Mixture-of-Experts یا MoE) هستند که نسخههای تخصصی Instruct و Thinking را نیز در بر میگیرند. به نقل از مستندات huggingface.co، این مدل برای آمادهسازی جهت عرضه، از ۱۵ سپتامبر در کتابخانه Transformers ادغام شده بود.
طبق اعلام سازندگان، برای دستیابی به عملکرد برتر در وظایف پیچیده، سه تغییر بنیادین در معماری این مدل اعمال شده است:
- ادغام DeepStack: این سازوکار به مدل اجازه میدهد تا ویژگیهای چندسطحی را مستقیماً از ترنسفورمر بصری (Vision Transformer یا ViT) استخراج کند.
- MRope ارتقایافته: یک چیدمان درهمتنیده که مدلسازی زمانی-مکانی را بهبود میبخشد تا مدل دقیقتر بفهمد اشیاء «کجا» و «چه زمانی» ظاهر میشوند.
- همراستاسازی زمانی مبتنی بر متن: مدل با عبور از متد T-RoPE، اکنون از همراستاسازی برچسبهای زمانی متنی برای مبنیسازی (Grounding) بسیار دقیقتر در ویدیوها استفاده میکند.
همانطور که در تحلیلهای پیشین ما دربارهی تکامل مدلهای چندوجهی اشاره کردیم، چالش اصلی همواره تبدیل پیکسلها به مفاهیم زمانی بوده است. از نظر فنی، رمزگذار بصری این مدل دارای ۲۷ لایه با اندازه پنهان ۱۱۵۲ است. ستون فقرات متنی آن نیز با پشتیبانی از حداکثر ۱۲۸,۰۰۰ توکن در بردار معنایی (Embedding) موقعیتی، پنجرههای زمینهای عظیمی را برای استدلالهای پیچیده فراهم میکند.
این نوآوریها Qwen3-VL را از یک ابزار ساده برای شرح تصاویر به یک موتور استدلال بصری عمیق تبدیل کرده است. با ادغام ویژگیهای بصری در حالتهای پنهان اولیه از طریق DeepStack، مدل با دادههای بصری نه به عنوان یک ورودی ثانویه، بلکه به عنوان یک زبان اصلی برخورد میکند.
اما تأثیر این معماری بر پردازش ویدیوهای طولانی تنها بخشی از داستان است؛ در گزارش بعدی، اثر این مدل بر صنعت نظارت تصویری و تحلیلهای جنایی را بررسی خواهیم کرد.
گام بعدی شما
- نسخهی MoE مدل Qwen3-VL را برای تحلیل ویدیوهای با نرخ فریم بالا تست کنید.
- دقت همراستاسازی زمانی را در مقایسه با مدلهای GPT-4o یا Claude 3.5 بررسی نمایید.
- از پنجره ۱۲۸ هزار توکنی برای تحلیل مستندات ویدئویی طولانی استفاده کنید.




گفتگو