چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

اگر یک عامل (Agent) هوش مصنوعی در اولین تلاش برای حل یک مسئله شکست بخورد، اکثر بنچمارک‌های فعلی آن را «ناکارآمد» می‌برچند و پرونده را می‌بندند. اما واقعیت این است که توانایی یادگیری از اشتباهات، بسیار حیاتی‌تر از موفقیت تصادفی در اولین تلاش است.

این شکاف ارزیابی در حالی رخ می‌دهد که مدل‌های زبانی-دیداری (Vision-Language Models یا VLM) را به‌طور گسترده در محیط‌های تعاملی به کار می‌گیرند، اما هنوز پروتکل‌های استانداردی برای مقایسه مدل‌های تجاری و وزن‌های باز (Open Weights) وجود ندارد. محیط‌های با گرافیک بالا مانند آنریال انجین ۵ (Unreal Engine 5) پیچیدگی لازم را فراهم می‌کنند، اما تا پیش از این، تمرکز بنچمارک‌ها تقریباً به‌طور کامل بر بازی‌های تک‌نفره بود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت و پایداری مدل‌های عامل‌محور (Agentic) اشاره کردیم، گذار از پاسخ‌های ایستا به رفتارهای پویا، بزرگ‌ترین چالش فعلی این حوزه است.

به نقل از مقاله‌ای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، OmniGameArena با مجموعه‌ای از ۱۲ بازی ساخته‌شده در UE5 این نقص‌ها را برطرف می‌کند:

۷ محیط تک‌نفره (Solo)
۳ محیط بازیکن در برابر بازیکن (PvP)
۲ محیط همکاری (Cooperative)

طبق مستندات این پروژه، نوآوری اصلی در ابزاری به نام «منحنی دینامیک بهبود» (Improvement Dynamics Curve یا IDC) نهفته است. در این سازوکار، یک مدل زبانی بزرگ (LLM) در نقش بازتاب‌دهنده، به‌طور خودکار پرامپت‌های مربوط به مهارت‌ها را در چندین دور اصلاح می‌کند. پژوهشگران ۱۲ عامل VLM را در وضعیت «شروع سرد» (Cold-start) آزمایش کردند و سپس چهار عامل برتر را از طریق IDC ردیابی نمودند تا مشاهده کنند نمرات آن‌ها چگونه تکامل می‌یابد و مهارت‌های آموخته‌شده تا چه حد به نسخه‌های تغییریافته‌ی تسک‌ها تعمیم می‌یابد.

این رویکرد، فرض بنیادین این میدان را تغییر می‌دهد: مهارت هوش مصنوعی دیگر یک ویژگی ایستا نیست، بلکه یک «مسیر پویا» است. با تمرکز بر منحنی بهبود به‌جای یک عدد ثابت، توسعه‌دهندگان اکنون می‌توانند مدل‌هایی که به‌طور طبیعی ماهر هستند را از مدل‌هایی که توانایی اصلاح سریع خود (Self-correction) را دارند، تشخیص دهند. این امر استانداردی جدید برای ارزیابی رفتارهای عامل‌محور — یعنی توانایی بازتاب، اصلاح و انطباق در لحظه — ایجاد می‌کند.

گام بعدی شما

بررسی نحوه‌ی اعمال آموزش‌های مبتنی بر بازتاب (Reflection-based training) در دنیاهای بازی بازتر و پیچیده‌تر.
تحلیل این پرسش کلیدی: آیا سازوکار IDC می‌تواند به‌جای اصلاح پرامپت، مستقیماً در وزن‌های مدل ادغام شود؟

این تنها آغاز ماجراست؛ اثر موج‌گونه‌ی این تغییر در معیارهای ارزیابی بر توسعه‌ی مدل‌های استدلالی را در گزارش‌های بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

۷ محیط تک‌نفره (Solo)
۳ محیط بازیکن در برابر بازیکن (PvP)
۲ محیط همکاری (Cooperative)

گام بعدی شما

بررسی نحوه‌ی اعمال آموزش‌های مبتنی بر بازتاب (Reflection-based training) در دنیاهای بازی بازتر و پیچیده‌تر.
تحلیل این پرسش کلیدی: آیا سازوکار IDC می‌تواند به‌جای اصلاح پرامپت، مستقیماً در وزن‌های مدل ادغام شود؟

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران