تصور کنید مدل بینایی شما بتواند با حذف ۹۰٪ از وزنهای خود، همان دقت پیشین را حفظ کند. این دیگر یک تخمین خوشبینانه نیست، بلکه واقعیت معماری جدید bViT است.
به نقل از مقاله پژوهشی منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، این مدل توانسته است در بنچمارک ImageNet-1K به عملکردی مشابه ViT-B دست یابد، در حالی که از یک مرتبه بزرگی (Order of Magnitude) پارامتر کمتر استفاده میکند.
اکثر ترنسفورمرهای بینایی (Vision Transformers یا ViTs) برای ایجاد عمق، بر روی پشته کردن بلوکهایی با پارامترهای مستقل تکیه میکنند. همانطور که در تحلیل قبلی ما دربارهی KVM Attention و تمرکز آن بر کاهش سربار حافظه اشاره کردیم، bViT این بار هدف خود را افزونگی (Redundancy) خودِ پارامترها قرار داده است تا بررسی کند چه مقدار از عمق یک مدل واقعاً به تبدیلهای منحصربهفرد نیاز دارد.
طبق یافتههای پژوهشگران، یک مدل bViT-B با ۱۲ گام تکرار، تحت بودجه آموزشی یکسان، دقتی رقابتی را حفظ میکند. بر اساس مستندات این تحقیق، این معماری بر سه سازوکار کلیدی استوار است:
- توزیع عمق ضمنی (Implicit Depth Multiplexing): یک بلوک مشترک از طریق حالت پنهان (Hidden State) در حال تکامل، محاسبات مختلف و وابسته به گام را اجرا میکند.
- همبستگی عرضی (Width Correlation): بازیابی عملکرد با عرض نمایش (Representation Width) مرتبط است؛ مدلهای bViT عریضتر بهطور قابلتوجهی از نسخههای باریک برتری دارند.
- رفتار پویا (Dynamic Behavior): تحلیل مکانیکی توجه و فعالسازها تایید میکند که بلوک در هر گام بازگشتی، رفتار موثری را تغییر میدهد و صرفاً یک عملیات استاتیک را تکرار نمیکند.
این یافته، این فرض رایج در صنعت را که مدلهای بینایی عمیق در هر لایه به وزنهای منحصربهفرد نیاز دارند، به چالش میکشد. با اثبات اینکه عرض نمایش میتواند جایگزین اشتراک پارامترها شود، bViT مسیری را برای ساخت مدلهای بینایی فوقسبک و با کارایی بالا میگشاید که برای تنظیم دقیق (Fine-tuning) بهینه هستند.
گام بعدی شما
- بررسی مقاله bViT در arxiv برای درک نحوه پیادهسازی بلوکهای بازگشتی.
- آزمایش اثر افزایش عرض مدل (Width) در مقابل عمق در پروژههای بینایی کوچک.
- رصد نتایج این معماری در مدلهای بنیادی (Foundation Models) با مقیاس بزرگتر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو