ساعتها انتظار برای تایید مدلهای جهانی نهفته اکنون به تاریخ پیوست. توسعهدهندگان اکنون میتوانند بدون اجرای حتی یک شبیهساز، بفهمند که آیا بازنماییهای آموختهشده توسط مدل برای برنامهریزی مفید هستند یا خیر.
مدلهای جهانی برای برنامهریزی هدفمحور در عاملها (Agents) حیاتی هستند. طبق اعلام متخصصان، ارزیابی این مدلها معمولاً به متدهای کندی مانند روش آنتروپی متقاطع (Cross-Entropy Method - CEM) وابسته است که با پیچیدگی مدل، مقیاسپذیری بدی دارند. همانطور که در تحلیل قبلی ما دربارهی معماریهای مدلهای استدلالی اشاره کردیم، گلوگاه اصلی همواره در توازن میان دقت بازنمایی و هزینه استنتاج بوده است.
در ۹ ژوئن ۲۰۲۶، پژوهشگران چارچوب ATM یا ماتریس انتقال سازگاری عملیاتی (Action-Consistency Transfer Matrix) را در arXiv منتشر کردند. بر اساس مستندات این پژوهش، این ابزار از پروبهای پسرخدادی (Post-hoc Probes) سبک برای مقایسه اطلاعات عملیاتی در انتقالهای رمزگذاریشده واقعی در برابر انتقالهای پیشبینیشده توسط مدل استفاده میکند.
نتایج کلیدی این متد عبارتند از:
- کاهش زمان ارزیابی از مقیاس ساعت به ثانیه (افزایش سرعت ۱۰۰ برابری در محیطهای آزمایششده).
- دستیابی به رتبهبندی جفتی بسیار قابلاعتماد در زمان تفاوت چشمگیر عملکرد مدلها.
- معرفی AITS؛ سیستمی که قابلیت شناسایی عمل (Action-identifiability) را به عنوان یک سیگنال آموزشی برای بهبود برنامهریزی پاییندست، بدون تغییر در خودِ برنامهریز، به کار میگیرد.
از دیدگاه فنی، این دستاورد گلوگاه توسعه مدلهای جهانی را از «شبیهسازی» به «تحلیل تشخیصی» منتقل میکند. با تبدیل کیفیت بازنمایی به مقداری تفسیرپذیر و سریع، پژوهشگران میتوانند با چابکی بسیار بیشتری روی نسخههای مختلف مدلها آزمایش کنند. در واقع، معیار کیفیت مدلهای جهانی از «موفقیت در شبیهساز» به «سازگاری عملیاتی نهفته» تغییر یافته است.
گام بعدی شما
- مطالعه جزئیات پیادهسازی AITS برای ادغام در وظایف تجسدیافته (Embodiment tasks).
- جایگزینی ارزیابیهای CEM با پروبهای ATM در چرخه آموزش مدلهای جهانی.
- بررسی اثر این متد بر کاهش هزینههای محاسباتی در مراکز داده.
این تنها آغاز مسیر است؛ اثر این رویکرد بر توسعه رباتهای خودمختار را در گزارشهای آینده بررسی خواهیم کرد.
گفتگو