Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

اگر امروز عامل‌های هوش مصنوعی خود را بدون نظارت در محیط عملیاتی رها می‌کنید، احتمالاً در حال قمار روی خطاهای فاجعه‌بار هستید. شما باید بدانید که «صداقت» در مدل‌های زبانی، یک قابلیت قابل آموزش نیست، بلکه باید یک محدودیت معماری باشد.

استقلال کامل عامل‌ها در محیط‌های صنعتی نیازمند اعتمادی است که فعلاً وجود ندارد. طبق گزارش‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن، توهمات در زنجیره‌های طولانی-مدت به شدت افزایش می‌یابد و منجر به ارسال خروجی‌های غلط به خطوط تولید می‌شود.

بر اساس پژوهشی که در ۱۱ ژوئن ۲۰۲۶ منتشر شد، مدل Autopilot با جایگزینی رویکرد سنتی با یک ماشین حالت متناهی (Finite-State Machine - FSM) گیت‌دار، توهمات مربوط به «موفقیت کاذب» را حذف کرده است. در این سیستم، تمام وضعیت‌های عملیاتی به یک ماشین حالت بادوام منتقل شده و یک زمان‌بند (Scheduler)، وضعیت‌ها را در تیک‌های بدون حالت پیش می‌برد. به نقل از مستندات این پژوهش، سیستم یک «کف سخت» پیاده کرده است که هرگونه ادعای پایان کار را ممنوع می‌کند، مگر اینکه گیت مربوط به آن واقعاً اجرا و تایید شده باشد.

داده‌های کلیدی حاصل از بررسی ۳۱۵۰ سلول داده نشان می‌دهد:

در بنچمارک SWE-bench Lite: نرخ توهم از ۳۳.۷٪ (در مدل StateFlow) به ۰.۶۷٪ رسید.
در مقایسه کلی: Autopilot تنها ۰.۹۵٪ توهم ثبت کرد، در حالی که این رقم برای Reflexion حدود ۸.۱۰٪ و برای StateFlow حدود ۲۵.۰۵٪ بود.
هزینه متنی در هر گام، صرف‌نظر از طول زنجیره عملیاتی، ثابت باقی ماند.

این تغییر، فرض بنیادین در طراحی عامل‌ها را دگرگون می‌کند: صداقت دیگر خروجی یک پرامپت بهینه نیست، بلکه یک تضمین ساختاری است. نکته‌ی تکان‌دهنده این است که این سازوکار مدل-ناوابسته عمل می‌کند؛ به طوری که دو مدل میان‌رده ضعیف‌تر در ۷۰۰ سلول هیچ توهمی نداشتند، در حالی که تمام ۱۰ مورد توهم در مطالعه مربوط به قدرتمندترین مدل بود.

گام بعدی شما

بررسی نحوه پیاده‌سازی ساختارهای FSM در فریم‌ورک‌های عامل‌محور (Agentic) برای حذف ریسک توهمات ساختاری.
تحلیل اثر محدود کردن فضای حالت بر سرعت استنتاج (Inference) در پروژه‌های اتوماسیون واقعی.
ارزیابی مدل‌های کوچک‌تر در کنار گیت‌های سخت برای دستیابی به نرخ خطای نزدیک به صفر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

داده‌های کلیدی حاصل از بررسی ۳۱۵۰ سلول داده نشان می‌دهد:

در بنچمارک SWE-bench Lite: نرخ توهم از ۳۳.۷٪ (در مدل StateFlow) به ۰.۶۷٪ رسید.
در مقایسه کلی: Autopilot تنها ۰.۹۵٪ توهم ثبت کرد، در حالی که این رقم برای Reflexion حدود ۸.۱۰٪ و برای StateFlow حدود ۲۵.۰۵٪ بود.
هزینه متنی در هر گام، صرف‌نظر از طول زنجیره عملیاتی، ثابت باقی ماند.

گام بعدی شما

بررسی نحوه پیاده‌سازی ساختارهای FSM در فریم‌ورک‌های عامل‌محور (Agentic) برای حذف ریسک توهمات ساختاری.
تحلیل اثر محدود کردن فضای حالت بر سرعت استنتاج (Inference) در پروژه‌های اتوماسیون واقعی.
ارزیابی مدل‌های کوچک‌تر در کنار گیت‌های سخت برای دستیابی به نرخ خطای نزدیک به صفر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران