مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

تصور کنید یک عامل هوش مصنوعی به دلیل عدم توانایی در «تصور» نتیجه‌ی یک کلیک، دستوری را اجرا کند که منجر به حذف داده‌های حیاتی شما شود. این ناتوانی در پیش‌بینی پیامدهای بصری، دقیقاً همان نقطه‌ی شکست اصلی در طراحی عامل‌های موبایلی (Mobile Agents) است.

در حالی که صنعت به سمت عامل‌هایی حرکت می‌کند که قادر به مدیریت جریان‌های کاری پیچیده در اندروید باشند، تمرکز از مدل‌های واکنشی به سمت مدل‌های دنیا (World Models) تغییر یافته است؛ مدل‌هایی که می‌توانند وضعیت‌های آینده را شبیه‌سازی کنند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی معماری‌های عامل‌محور اشاره کردیم، عبور از حلقه‌ی «آزمون و خطا» برای دستیابی به قابلیت اطمینان در محیط‌های عملیاتی، یک ضرورت است.

طبق گزارشی که در ۱۲ مه ۲۰۲۶ منتشر شد، پژوهشگرانی از جمله ویکای شو (Weikai Xu) و بو آن (Bo An) در مقاله‌ای در arXiv، مدل‌های دنیایی را معرفی کردند که بر روی چهار مودالیته‌ی مختلف آموزش دیده‌اند:

متن دلتا (Delta Text)
متن کامل (Full Text)
تصاویر مبتنی بر انتشار (Diffusion-based Images)
کدهای قابل رندر (Renderable Code)

این تیم مدل‌های خود را در بنچمارک‌های MobileWorldBench و Code2WorldBench ارزیابی کردند و به عملکردی در سطح پیشرو (SoTA) دست یافتند. بر اساس مستندات این پژوهش، یک توازن حیاتی شناسایی شده است: کدهای قابل رندر بیشترین دقت بازنمایی (Fidelity) را در داده‌های درون-توزیعی دارند، اما بازخوردهای متنی در اجرای عملیات‌های برون-توزیعی (Out-of-distribution) مقاوم‌تر هستند.

این یافته‌ها فرضیه‌ی رایج مبنی بر اینکه «خود-تأمل» (Self-reflection) راهکاری جهانی برای رفع خطاهای عامل است را به چالش می‌کشد. طبق تحلیل این پژوهش، برای عامل‌های بیش‌ازحد مطمئن با آنتروپی اقدام (Action Entropy) پایین، تأمل پس از اجرا سودمندی محدودی دارد. این بدان معناست که مسیر واقعی رسیدن به پایداری، استفاده از مدل‌های دنیا به عنوان ادراک پیش‌بین است؛ یعنی آموزش عامل برای تصور نتیجه پیش از اقدام، نه تلاش برای اصلاح اشتباه پس از وقوع.

گام بعدی شما

توسعه‌دهندگان باید بررسی کنند که آیا مودالیته‌های کد قابل رندر در نسل بعدی مدل‌های زبانی بزرگ (LLM) روی دستگاه (On-device) ادغام می‌شوند یا خیر.
برای کاهش هزینه‌های استنتاج، ترکیب بازخوردهای متنی و کدی را در لایه‌ی پیش‌بینی عامل‌ها آزمایش کنید.
بر روی پیاده‌سازی مدل‌های دنیا به عنوان نظارت آموزشی (Training Supervision) به جای لایه‌های اصلاحی متمرکز شوید.

اما تأثیر این تحول بر سخت‌افزارهای لبه‌ای حتی پیچیده‌تر است؛ برای درک چگونگی اجرای این مدل‌ها روی تراشه‌های نسل جدید، تحلیل ما درباره‌ی معماری‌های NPU را دنبال کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

متن دلتا (Delta Text)
متن کامل (Full Text)
تصاویر مبتنی بر انتشار (Diffusion-based Images)
کدهای قابل رندر (Renderable Code)

گام بعدی شما

توسعه‌دهندگان باید بررسی کنند که آیا مودالیته‌های کد قابل رندر در نسل بعدی مدل‌های زبانی بزرگ (LLM) روی دستگاه (On-device) ادغام می‌شوند یا خیر.
برای کاهش هزینه‌های استنتاج، ترکیب بازخوردهای متنی و کدی را در لایه‌ی پیش‌بینی عامل‌ها آزمایش کنید.
بر روی پیاده‌سازی مدل‌های دنیا به عنوان نظارت آموزشی (Training Supervision) به جای لایه‌های اصلاحی متمرکز شوید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران