نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

اگر استدلال عامل شما دقیق است اما نتایج ابزارها را جعل می‌کند، با مشکل منطقی روبرو نیستید؛ شما با شکست در مبنی‌سازی (Grounding) مواجه‌اید. در ۱۶ ژوئن ۲۰۲۶، پژوهشگران ابزاری به نام StateGen را معرفی کردند؛ پلتفرمی برای تولید داده‌های مصنوعی که با اعمال اصل «پایگاه‌داده تنها منبع حقیقت است»، این نقطه شکست را به‌طور سیستماتیک حذف می‌کند.

بر اساس مستندات منتشرشده، آموزش این عامل‌ها مدت‌هاست که به دلیل کمبود داده‌های محاوره‌ای باکیفیت که بر اساس وضعیت واقعی ابزارها باشند، دچار گلوگاه شده است. همان‌طور که در پوشش پیشین ما از چالش‌های همراستاسازی (Alignment) مدل‌های عامل‌محور دیدیم، نیاز به مجموعه‌داده‌های سخت‌گیرانه‌ای است که فراتر از تطبیق ساده‌ی الگوها عمل کنند. این موضوع به‌ویژه زمانی اهمیت می‌یابد که باب اثرات آموزش‌های ایمنی محدود بر همراستاسازی جامع مدل‌ها گشوده است.

به نقل از مقاله‌ی arXiv، سیستم StateGen یک حلقه‌ی چهار-نقش از مدل زبانی بزرگ (LLM) را مدیریت می‌کند که شامل این موارد است:

شبیه‌ساز کاربر بر اساس پرسوناهای تعریف‌شده
عامل تحت آزمایش (Agent under test)
شبیه‌ساز ابزار مبتنی بر وضعیت (State-grounded)
داور LLM با محورهای ارزیابی چندگانه

مرکز ثقل فنی این سیستم، یک مدیر وضعیت (State Manager) است که یک شیء ساختاریافته از وضعیت جهان را در تمام مراحل گفتگو حفظ می‌کند. نتایج کلیدی این رویکرد عبارتند از:

کسب نمره ۹.۶۶ از ۱۰ در نرخ توهم (Hallucination) فراخوانی ابزار طی ۶۴٬۶۹۸ گفتگو
پشتیبانی از تنوع پرسونا از طریق یک بردار ویژگی ۲۳-بعدی
قابلیت گسترش به ساختارهای سلسله‌مراتبی با تعریف زیر-عامل‌ها به عنوان ابزارهایی که یک شیء وضعیت مشترک دارند. چنین ساختارهای سلسله‌مراتبی، شباهت‌های فنی زیادی با مفاهیمی چون هوش تفویض‌محور دارد که در مدل SearchSwarm-30B برای دستیابی به امتیازات بالا در بنچمارک‌های وب به کار گرفته شده است.

برای جامعه‌ی تخصصی، این یک چرخش راهبردی از نگاه به خروجی‌های ابزار به عنوان «متن احتمالی» به سمت «انتقال وضعیت قطعی» (Deterministic State Transitions) است. با تضمین اینکه بک‌اندِ شبیه‌ساز تنها منبع حقیقت است، این پلتفرم غالب خطاهای عامل‌ها را نه با مهندسی پرامپت (Prompt Engineering)، بلکه از طریق ساختار معماری حذف می‌کند. این رویکرد یادآور تلاش‌های پیشین برای جایگزینی پرامپت‌ها با ماشین‌های حالت است که در بررسی‌های ما درباره توقف خطاهای ابزاری با استفاده از FSM به تفصیل مورد بحث قرار گرفت. این دستاورد ثابت می‌کند که داده‌های مصنوعی مبنی‌سازی‌شده می‌توانند در تولید عامل‌های قابل‌اعتماد، از مجموعه‌داده‌های عمومی پیشی بگیرند.

گام بعدی شما

بررسی امکان ادغام منطق مدیریت وضعیت در چارچوب‌های ارزیابی لحظه‌ای (Real-time Evaluation)
تست پایداری این کاهش توهمات در مواجهه با APIهای غیرقطعی در دنیای واقعی
تحلیل اثر این متدولوژی بر کاهش هزینه‌ی استنتاج (Inference) در مراحل آموزش

اما اثر این رویکرد بر سخت‌افزارهای نسل جدید حتی حیاتی‌تر است؛ برای درک رابطه میان حافظه و استدلال، به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شبیه‌ساز کاربر بر اساس پرسوناهای تعریف‌شده
عامل تحت آزمایش (Agent under test)
شبیه‌ساز ابزار مبتنی بر وضعیت (State-grounded)
داور LLM با محورهای ارزیابی چندگانه

کسب نمره ۹.۶۶ از ۱۰ در نرخ توهم (Hallucination) فراخوانی ابزار طی ۶۴٬۶۹۸ گفتگو
پشتیبانی از تنوع پرسونا از طریق یک بردار ویژگی ۲۳-بعدی
قابلیت گسترش به ساختارهای سلسله‌مراتبی با تعریف زیر-عامل‌ها به عنوان ابزارهایی که یک شیء وضعیت مشترک دارند. چنین ساختارهای سلسله‌مراتبی، شباهت‌های فنی زیادی با مفاهیمی چون هوش تفویض‌محور دارد که در مدل SearchSwarm-30B برای دستیابی به امتیازات بالا در بنچمارک‌های وب به کار گرفته شده است.

گام بعدی شما

بررسی امکان ادغام منطق مدیریت وضعیت در چارچوب‌های ارزیابی لحظه‌ای (Real-time Evaluation)
تست پایداری این کاهش توهمات در مواجهه با APIهای غیرقطعی در دنیای واقعی
تحلیل اثر این متدولوژی بر کاهش هزینه‌ی استنتاج (Inference) در مراحل آموزش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران