تصور کنید یک عامل هوش مصنوعی بتواند پیش از هر حرکت، تمام پیامدهای احتمالی محیط را در ذهنش شبیهسازی کند تا دیگر نیازی به آزمون و خطاهای پرهزینه در دنیای واقعی نباشد. این دقیقاً همان قابلیتی است که مدلهای جدید مدلسازی جهان به آن دست یافتهاند.
به نقل از گزارش فنی منتشر شده در arxiv.org، مدل Qwen-AgentWorld که در ۲۳ ژوئن ۲۰۲۶ عرضه شد، paradigm تعامل عاملها با محیط را تغییر میدهد. بر خلاف رویکردهای فعلی که بر تعامل مستقیم و کند با محیط متکی هستند، این مدلها محیط را به شکل توالیهای پیشبینیپذیری از تغییرات وضعیت میبینند. همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی اشاره کردیم، تفکیک لایهی شبیهساز از لایهی تصمیمگیرنده، سرعت یادگیری را بهشدت افزایش میدهد.
این مدلها به عنوان یک مدل جهانی (World Model) عمل میکنند؛ یعنی محیطی امن و مقیاسپذیر برای یادگیری تقویتی (Reinforcement Learning) ایجاد میکنند تا عاملها بدون ریسک، استراتژیهای خود را بهینه کنند.
طبق مستندات پروژه، دو نسخه اصلی از این مدل عرضه شده است:
- Qwen-AgentWorld-35B-A3B
- Qwen-AgentWorld-397B-A17B
فرآیند آموزش این مدلها در سه مرحله کلیدی طی شده است:
- پیشآموزش مستمر (CPT): تزریق دادههای تخصصی مدلسازی جهان و مجموعههای متنی حرفهای.
- تنظیم نظارتشده (SFT): فعالسازی استدلالهای پیشبینی وضعیت بعدی با استفاده از زنجیره تفکر (Chain-of-Thought) طولانی. این رویکرد یادگیری، شباهت زیادی به روشهای تنوعسازی طرحوارههای تفکر برای ارتقای استدلال دارد که پیشتر در چارچوب DiScO بررسی شد.
- یادگیری تقویتی (RL): اصلاح دقت شبیهسازی با استفاده از یک سیستم پاداش ترکیبی (قانونمحور و معیارمحور).
برای اعتبارسنجی، تیم پژوهشگر AgentWorldBench را معرفی کردند؛ محکی که بر اساس تعاملات واقعی پنج مدل پیشرو در نُه بنچمارک استاندارد طراحی شده است. بر اساس بررسی منابع متعدد، این مدلها روی بیش از ۱۰ میلیون مسیر تعاملی در هفت دامنه مختلف آموزش دیدهاند. در این راستا، دستیابی به چنین سطح از استدلال در مدلهای بهینه، یادآور موفقیت مدل VibeThinker-3B در رقابت با مدلهای بزرگتر در حوزهی استدلالهای تاییدپذیر است.
از منظر فنی، این دستاورد فرضیه قدیمی مبنی بر نیاز به تعامل مستقیم با محیط برای آموزش عاملها را میشکند. با جداسازی شبیهساز محیط از خودِ عامل، توسعهدهندگان اکنون میتوانند آموزشهای مقیاسپذیری را اجرا کنند که نتایج آن از آموزش صرفاً در محیطهای واقعی فراتر میرود.
گام بعدی شما
- بررسی کد باز این پروژه در GitHub برای تست استدلالهای تغییر وضعیت روی بنچمارکهای شخصی.
- ارزیابی جایگزینی محیطهای شبیهسازی سنتی با مدلهای زبانی جهانی در خط لولههای یادگیری تقویتی (RL).
- مطالعه تأثیر طول زنجیره تفکر بر دقت پیشبینی وضعیتهای بعدی در دامنههای تخصصی.
این تحول در شبیهسازی، مسیر رسیدن به عاملهای خودگردان را هموارتر میکند؛ اما تأثیر این رویکرد بر کاهش توهمات در مدلهای استدلالی را در گزارش بعدی بررسی خواهیم کرد.




گفتگو