Qwen-AgentWorld-35B: برتری مدل‌های کوچک در ردیابی وضعیت و ابزار

اگر امروز در حال توسعه‌ی عامل‌هایی هستید که با توهمات در فراخوانی ابزارها دست‌وپنجه نرم می‌کنند، باید بدانید که مدل‌های کوچک‌تر در حال پیروزی در این رقابت هستند. یک مدل ۳۵ میلیارد پارامتری اکنون در رفتارهای منضبط «بررسی کن و سپس پیش برو»، غول‌های صنعت را شکست می‌دهد.

طبق گزارشی که در ۲۹ ژوئن ۲۰۲۶ در وب‌سایت dev.to منتشر شد، مدل Qwen-AgentWorld-35B-A3B سقف بسیار بالایی در ردیابی وضعیت (State Tracking) و قابلیت اطمینان دارد؛ در حالی که مدل‌های عظیم اغلب پس از چند دور گفتگو، در استدلال آرگومان‌های ابزاری دچار توهم (Hallucination) — شبیه دوستی که خاطره‌ای را با اطمینان اما اشتباه تعریف می‌کند — می‌شوند.

این چرخش به سمت تنظیمات تخصصی عامل‌محور در زمانی رخ می‌دهد که توسعه‌دهندگان از «خستگی ناشی از استفاده از ابزار» در مدل‌های زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — رنج می‌برند. این روند بهینه کردن هزینه‌ها و بازدهی در مدل‌های کوچک‌تر، یادآور موفقیت مدل AliyunConsoleAgent در کاهش هزینه‌های عملیاتی تا ۹۲ درصد است که پیش‌تر بررسی کردیم. همان‌طور که در تحلیل قبلی ما درباره‌ی معیارهای EgoTactile و نقش تعاملات فیزیکی اشاره کردیم، AgentWorld حالا روی حلقه‌ی شناختی «مشاهده، استدلال و اقدام» تمرکز کرده است.

معیارهای عملکرد فنی

بر اساس مستندات تست‌های محلی، این مدل در سه ستون اصلی ارزیابی شده است:

صحت فراخوانی ابزار: در بیش از ۵۰ فراخوانی پیچیده‌ی ابزار با فرمت JSON، هیچ خطای سینتکسی رخ نداد.
پایداری وضعیت: مدل توانست پنج متغیر مختلف را در سه سیلو یا مخزن داده‌ی مجزا ردیابی کند، بدون اینکه به یادآوری‌های پرامپت سیستمی نیاز داشته باشد.
بازیابی خطا: هنگام مواجهه با «خطاهای ابزاری» عمدی، مدل به‌جای ایجاد حلقه یا پاسخ‌های عصبی، پیام خطا را تحلیل کرد و پارامترها را اصلاح نمود.

به گزارش پژوهشگران، در حالی که GPT-4o اغلب به‌دلیل اعتمادبه‌نفس بیش از حد، مراحل حیاتی تأیید را نادیده می‌گیرد، Qwen-AgentWorld-35B-A3B به‌طور مداوم تغییرات را از طریق شل‌های شبیه‌سازی‌شده بررسی می‌کند. این دقت در ارزیابی، نقطه‌ی مقابل متدهای متقلبانه‌ای است که در رویکرد «حلقهٔ هکر-اصلاح‌گر» برای دستکاری بنچمارک‌های عامل‌محور مشاهده شده است.

برای یک مهندس، این تغییر در مفروضات بنیادی است. ما از «مدل‌هایی که می‌توانند توابع را فراخوانی کنند» به سمت مدل‌هایی می‌رویم که اساساً برای عاملیت (Agency) طراحی شده‌اند. اکنون قابلیت اطمینان بدون نیاز به ماهیت «جعبه سیاه» APIهای بسته امکان‌پذیر است.

با این حال، توازن‌های عملیاتی وجود دارد. این مدل ۳۵ میلیارد پارامتری در مقایسه با نسخه‌های ۷ یا ۹ میلیاردی، تأخیر (Latency) محسوسی دارد که آن را برای عامل‌های صوتی آنی نامناسب می‌کند. همچنین لحن نوشتاری آن «خشک» توصیف شده و برای رابط‌های مشتری‌محور به یک لایه صیقل‌دهنده نیاز دارد.

توسعه‌دهندگان باید این اندازه (35B) را به‌عنوان «نقطه بهینه» برای کارهای غیرهمزمان مثل بررسی خودکار PRها یا سازمان‌دهی خط لوله‌های داده بدانند. این مدل روی یک تک GPU مدل A100 یا حتی سیستم‌های مصرف‌کننده رده‌بالا با استفاده از کوانتاسیون (Quantization) به‌صورت بهینه اجرا می‌شود.

گام بعدی شما

این مدل را در خط لوله‌های پژوهشی خودکار برای تست تجزیه اهداف بلندمدت ادغام کنید.
عملکرد آن را در مدیریت متغیرهای متقاطع با APIهای بسته مقایسه کنید.
برای کاهش تأخیر در محیط‌های عملیاتی، نسخه‌های کوانتیده شده را بررسی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معیارهای عملکرد فنی

بر اساس مستندات تست‌های محلی، این مدل در سه ستون اصلی ارزیابی شده است:

صحت فراخوانی ابزار: در بیش از ۵۰ فراخوانی پیچیده‌ی ابزار با فرمت JSON، هیچ خطای سینتکسی رخ نداد.
پایداری وضعیت: مدل توانست پنج متغیر مختلف را در سه سیلو یا مخزن داده‌ی مجزا ردیابی کند، بدون اینکه به یادآوری‌های پرامپت سیستمی نیاز داشته باشد.
بازیابی خطا: هنگام مواجهه با «خطاهای ابزاری» عمدی، مدل به‌جای ایجاد حلقه یا پاسخ‌های عصبی، پیام خطا را تحلیل کرد و پارامترها را اصلاح نمود.

گام بعدی شما

این مدل را در خط لوله‌های پژوهشی خودکار برای تست تجزیه اهداف بلندمدت ادغام کنید.
عملکرد آن را در مدیریت متغیرهای متقاطع با APIهای بسته مقایسه کنید.
برای کاهش تأخیر در محیط‌های عملیاتی، نسخه‌های کوانتیده شده را بررسی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Qwen-AgentWorld-35B: برتری مدل‌های کوچک در ردیابی وضعیت و ابزار

معیارهای عملکرد فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Qwen-AgentWorld-35B: برتری مدل‌های کوچک در ردیابی وضعیت و ابزار

معیارهای عملکرد فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Qwen-AgentWorld-35B: برتری مدل‌های کوچک در ردیابی وضعیت و ابزار

معیارهای عملکرد فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Qwen-AgentWorld-35B: برتری مدل‌های کوچک در ردیابی وضعیت و ابزار

معیارهای عملکرد فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران