گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

تصور کنید عاملی که هیچ قانونی را نمی‌داند، در لحظه موتور فیزیک خودش را بنویسد تا سخت‌ترین پازل‌های جهان را حل کند. این دیگر یک تخیل علمی نیست، بلکه واقعیت جدید استدلال در هوش مصنوعی است.

در ۷ مه ۲۰۲۶، پژوهشگری به نام سرگئی رودیونوف (Sergey Rodionov) مطالعه‌ای را در arxiv.org منتشر کرد که در آن سیستمی برای ARC-AGI-3 معرفی شده است. طبق اعلام این گزارش، این سیستم از مدل‌های دنیای قابل‌اجرا (Executable World Models) مبتنی بر پایتون استفاده می‌کند تا بدون داشتن هرگونه منطق پیش‌فرض، مسائل را حل کند.

بر اساس مستندات این پژوهش، این عامل (Agent) به جای تکیه بر حدس‌های احتمالی، یک مدل پایتونی از محیط می‌سازد، آن را با مشاهدات تطبیق می‌دهد و سپس کد را به سمت انتزاع‌های ساده‌تر بازسازی می‌کند. این فرآیند از اصل کمترین طول توصیف (Minimum Description Length - MDL) پیروی می‌کند تا به ساده‌ترین و دقیق‌ترین مدل منطقی برسد.

نتایج به‌دست‌آمده از بررسی ۲۵ بازی عمومی، چشم‌انداز جدیدی از توانمندی‌های مدل استدلالی (Reasoning Model) را نشان می‌دهد:

حل کامل ۷ بازی پیچیده.
دستیابی به کارایی نسبی اقدامات انسانی (Relative Human Action Efficiency - RHAE) بالای ۷۵٪ در ۶ بازی.
میانگین RHAE در کل مجموعه: ۳۲.۵۸٪.

برای تضمین اعتبار، هر بار اجرای برنامه با یک نمونه‌ی تازه از عامل آغاز شد تا هیچ دسترسی به تاریخچه یا فایل‌های قبلی وجود نداشته باشد. این سیستم از یک کنترل‌کننده اسکریپتی و یک مجری برنامه استفاده می‌کند تا پیش از هر اقدام، نتایج را در مدل پایتونی خود شبیه‌سازی کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی تکامل عامل‌های کدنویس اشاره کردیم، این پژوهش تمرکز را از تولید خروجی‌های خلاقانه به سمت موتورهای منطقی سخت‌گیر می‌برد. در واقع، این رویکرد یک مسئله‌ی استدلالی را به یک مسئله‌ی مهندسی نرم‌افزار تبدیل می‌کند.

اما این موفقیت در محیط‌های ایزوله، تنها نیمی از داستان است؛ اثر موج‌گونه‌ی این متد بر امنیت مدل‌های بازمتن را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی معماری MDL برای کاهش توهمات در مدل‌های زبانی.
آزمایش ابزارهای کدنویسی خودکار برای ساخت شبیه‌سازهای کوچک از مسائل کسب‌وکار.
دنبال کردن نتایج این مدل بر روی مجموعه‌داده‌های خصوصی (Private Validation Set) برای تایید سطح AGI.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

حل کامل ۷ بازی پیچیده.
دستیابی به کارایی نسبی اقدامات انسانی (Relative Human Action Efficiency - RHAE) بالای ۷۵٪ در ۶ بازی.
میانگین RHAE در کل مجموعه: ۳۲.۵۸٪.

گام بعدی شما

بررسی معماری MDL برای کاهش توهمات در مدل‌های زبانی.
آزمایش ابزارهای کدنویسی خودکار برای ساخت شبیه‌سازهای کوچک از مسائل کسب‌وکار.
دنبال کردن نتایج این مدل بر روی مجموعه‌داده‌های خصوصی (Private Validation Set) برای تایید سطح AGI.

گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران