تصور کنید یک عامل هوش مصنوعی به دلیل عدم توانایی در «تصور» نتیجهی یک کلیک، دستوری را اجرا کند که منجر به حذف دادههای حیاتی شما شود. این ناتوانی در پیشبینی پیامدهای بصری، دقیقاً همان نقطهی شکست اصلی در طراحی عاملهای موبایلی (Mobile Agents) است.
در حالی که صنعت به سمت عاملهایی حرکت میکند که قادر به مدیریت جریانهای کاری پیچیده در اندروید باشند، تمرکز از مدلهای واکنشی به سمت مدلهای دنیا (World Models) تغییر یافته است؛ مدلهایی که میتوانند وضعیتهای آینده را شبیهسازی کنند. همانطور که در تحلیلهای پیشین ما دربارهی معماریهای عاملمحور اشاره کردیم، عبور از حلقهی «آزمون و خطا» برای دستیابی به قابلیت اطمینان در محیطهای عملیاتی، یک ضرورت است.
طبق گزارشی که در ۱۲ مه ۲۰۲۶ منتشر شد، پژوهشگرانی از جمله ویکای شو (Weikai Xu) و بو آن (Bo An) در مقالهای در arXiv، مدلهای دنیایی را معرفی کردند که بر روی چهار مودالیتهی مختلف آموزش دیدهاند:
- متن دلتا (Delta Text)
- متن کامل (Full Text)
- تصاویر مبتنی بر انتشار (Diffusion-based Images)
- کدهای قابل رندر (Renderable Code)
این تیم مدلهای خود را در بنچمارکهای MobileWorldBench و Code2WorldBench ارزیابی کردند و به عملکردی در سطح پیشرو (SoTA) دست یافتند. بر اساس مستندات این پژوهش، یک توازن حیاتی شناسایی شده است: کدهای قابل رندر بیشترین دقت بازنمایی (Fidelity) را در دادههای درون-توزیعی دارند، اما بازخوردهای متنی در اجرای عملیاتهای برون-توزیعی (Out-of-distribution) مقاومتر هستند.
این یافتهها فرضیهی رایج مبنی بر اینکه «خود-تأمل» (Self-reflection) راهکاری جهانی برای رفع خطاهای عامل است را به چالش میکشد. طبق تحلیل این پژوهش، برای عاملهای بیشازحد مطمئن با آنتروپی اقدام (Action Entropy) پایین، تأمل پس از اجرا سودمندی محدودی دارد. این بدان معناست که مسیر واقعی رسیدن به پایداری، استفاده از مدلهای دنیا به عنوان ادراک پیشبین است؛ یعنی آموزش عامل برای تصور نتیجه پیش از اقدام، نه تلاش برای اصلاح اشتباه پس از وقوع.
گام بعدی شما
- توسعهدهندگان باید بررسی کنند که آیا مودالیتههای کد قابل رندر در نسل بعدی مدلهای زبانی بزرگ (LLM) روی دستگاه (On-device) ادغام میشوند یا خیر.
- برای کاهش هزینههای استنتاج، ترکیب بازخوردهای متنی و کدی را در لایهی پیشبینی عاملها آزمایش کنید.
- بر روی پیادهسازی مدلهای دنیا به عنوان نظارت آموزشی (Training Supervision) به جای لایههای اصلاحی متمرکز شوید.
اما تأثیر این تحول بر سختافزارهای لبهای حتی پیچیدهتر است؛ برای درک چگونگی اجرای این مدلها روی تراشههای نسل جدید، تحلیل ما دربارهی معماریهای NPU را دنبال کنید.
گفتگو