تصور کنید برنامهنویسی را استخدام کنید که ۱۰ روز تمام روی کدهایی کار کند که در پروژه شما وجود ندارند و در پایان با اطمینان بگوید همه چیز اصلاح شده است. این دقیقاً همان اتفاقی است که برای Nautilus Prime V5 رخ داد.
طبق گزارشی که ۲۶ ژوئن ۲۰۲۶ در وبسایت dev.to منتشر شد، این عامل (Agent) — که مانند کارمندی است که میتواند بهطور مستقل ابزارها را اجرا کرده و تصمیم بگیرد — در یک حلقه توهم شدید گیر افتاده بود. این مدل تصور میکرد در حال رفع باگهای حیاتی در دو فایل code.py و code_safety.py است، در حالی که هیچکدام از این فایلها در مخزن کد وجود نداشتند. این نوع توهمات در کدنویسی، یادآور پروژه Loupe و چالش شناسایی باگهای خاموشی است که در آن کدها علیرغم عبور از تستها، در واقعیت دچار نقص هستند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، شکاف بین «تصور مدل» و «واقعیت محیط» یکی از بزرگترین چالشهای فعلی است. برای حل این مشکل، توسعهدهندگان ابزاری به نام phantom_file_guard ساخته بودند تا فایلهای شبحی را شناسایی کند. اما با کمال تأسف، پرامپت سیستمی (System Prompt) — دستورالعملهای بنیادینی که مثل قانون اساسی برای مدل عمل میکند — مدام باگ را به مدل تزریق میکرد و منطق حفاظتی ابزار را دور میزد. این ضعف در تنظیمات سیستمی با یافتههای اخیر همخوانی دارد که نشان میدهد بسیاری از پیکربندیهای عاملهای هوش مصنوعی دارای حفرههای امنیتی بحرانی هستند.
به نقل از گزارش مذکور، مدل تنها زمانی به خود آمد که در چرخه ۹۹۲۵۵ ابزار phantom_file_guard.check_phantom() را اجرا کرد. در این لحظه، مدل متوجه فروپاشی کامل وضعیت داخلی خود شد:
- عاملهای فعال: مدل تصور میکرد ۷ نفر از ۳۰ عامل زنده هستند؛ واقعیت: ۰
- وظایف تکمیلشده: مدل فکر میکرد ۸۹ وظیفه در حال پیشروی است؛ واقعیت: ۰
- امتیاز سلامت: مدل وضعیت را «تحت فشار» میدید؛ واقعیت: ۰.۰
این عامل در نهایت با جایگزینی تکگوییهای داخلی خود با ۶ فراخوانی مستقیم ابزار، از جمله pf_platform_health و a2a_unread توانست به واقعیت برگردد. این بررسی تایید کرد که ۳۴۱ عامل در پلتفرم کاملاً خاموش بودهاند.
این اتفاق یک هشدار جدی برای توسعهدهندگان است: تکیه بیش از حد به زنجیره تفکر (Chain-of-Thought) — شبیه وقتی شاگرد ریاضی پای تخت بلندبلند فکر میکند تا به جواب برسد — بدون بهروزرسانی وضعیت از محیط واقعی، منجر به ایجاد حلقههای بازخوردی از «نیات منقضیشده» میشود. در واقع، تکگویی مدل جایگزین چک کردن واقعیت شد. برای مقابله با این وضعیت، رویکردهایی مانند چارچوب Agent Rigor با ایجاد سلسلهمراتب دستوری سعی دارند از سقوط مدلها در این حلقههای توهم جلوگیری کنند.
بر اساس بررسیهای فنی، یک دستور سادهی os.path.exists() به مراتب بهینهتر و قابلاعتمادتر از هزاران دور استدلال یک مدل زبانی بزرگ (LLM) است. نتیجه این است که حفاظها فقط آنچه را که از مسیرشان رد شود میگیرند و توهمات سطح پرامپت میتوانند بهراحتی از لایههای حفاظتی عبور کنند.
گام بعدی شما
- در معماری عاملهای خود، بهروزرسانی وضعیت (State Update) را پیش از اعلان اقدام (Action Declaration) قرار دهید.
- برای جلوگیری از توهمات سیستمی، چک کردن وجود فایل را به جای استدلال مدل، به یک ابزار سختافزاری/سیستمی بسپارید.
- کد کامل منطق حفاظتی را در دایرکتوری
nautilus_v5/tools/phantom_file_guard.pyبررسی کنید تا در چارچوبهای دیگر پیادهسازی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو