اگر امروز عاملهای هوش مصنوعی خود را بدون نظارت در محیط عملیاتی رها میکنید، احتمالاً در حال قمار روی خطاهای فاجعهبار هستید. شما باید بدانید که «صداقت» در مدلهای زبانی، یک قابلیت قابل آموزش نیست، بلکه باید یک محدودیت معماری باشد.
استقلال کامل عاملها در محیطهای صنعتی نیازمند اعتمادی است که فعلاً وجود ندارد. طبق گزارشهای پیشین ما دربارهی امنیت مدلهای بازمتن، توهمات در زنجیرههای طولانی-مدت به شدت افزایش مییابد و منجر به ارسال خروجیهای غلط به خطوط تولید میشود.
بر اساس پژوهشی که در ۱۱ ژوئن ۲۰۲۶ منتشر شد، مدل Autopilot با جایگزینی رویکرد سنتی با یک ماشین حالت متناهی (Finite-State Machine - FSM) گیتدار، توهمات مربوط به «موفقیت کاذب» را حذف کرده است. در این سیستم، تمام وضعیتهای عملیاتی به یک ماشین حالت بادوام منتقل شده و یک زمانبند (Scheduler)، وضعیتها را در تیکهای بدون حالت پیش میبرد. به نقل از مستندات این پژوهش، سیستم یک «کف سخت» پیاده کرده است که هرگونه ادعای پایان کار را ممنوع میکند، مگر اینکه گیت مربوط به آن واقعاً اجرا و تایید شده باشد.
دادههای کلیدی حاصل از بررسی ۳۱۵۰ سلول داده نشان میدهد:
- در بنچمارک SWE-bench Lite: نرخ توهم از ۳۳.۷٪ (در مدل StateFlow) به ۰.۶۷٪ رسید.
- در مقایسه کلی: Autopilot تنها ۰.۹۵٪ توهم ثبت کرد، در حالی که این رقم برای Reflexion حدود ۸.۱۰٪ و برای StateFlow حدود ۲۵.۰۵٪ بود.
- هزینه متنی در هر گام، صرفنظر از طول زنجیره عملیاتی، ثابت باقی ماند.
این تغییر، فرض بنیادین در طراحی عاملها را دگرگون میکند: صداقت دیگر خروجی یک پرامپت بهینه نیست، بلکه یک تضمین ساختاری است. نکتهی تکاندهنده این است که این سازوکار مدل-ناوابسته عمل میکند؛ به طوری که دو مدل میانرده ضعیفتر در ۷۰۰ سلول هیچ توهمی نداشتند، در حالی که تمام ۱۰ مورد توهم در مطالعه مربوط به قدرتمندترین مدل بود.
گام بعدی شما
- بررسی نحوه پیادهسازی ساختارهای FSM در فریمورکهای عاملمحور (Agentic) برای حذف ریسک توهمات ساختاری.
- تحلیل اثر محدود کردن فضای حالت بر سرعت استنتاج (Inference) در پروژههای اتوماسیون واقعی.
- ارزیابی مدلهای کوچکتر در کنار گیتهای سخت برای دستیابی به نرخ خطای نزدیک به صفر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو