تصور کنید یک بازرس سختگیر، تمام تصمیمات هوشمندانه شما در طراحی یک پروژه را «اشتباه» نامگذاری کند و بخواهد آنها را حذف کند. این دقیقاً اتفاقی است که در یک آزمایش خود-بازرسی در ۲۸ ژوئن ۲۰۲۶ رخ داد و منجر به نرخ خطای ۸۶ درصدی شد.
این اتفاق زمانی افتاد که یک عامل (Agent) — مانند دستیاری که میتواند بهجای صرفاً حرف زدن، کارهایی را در کامپیوتر انجام دهد — در حال انتقال مهارت مهندسی Fable-mode از Claude Code به پلتفرم Pi بود. هدف این بود که نظم معماری در سیستم جدید حفظ شود. این چالش در مدیریت ابزارهای توسعه، یادآور تجربیات اخیر در زمینه امنیت است؛ برای مثال، وجود حفرههای امنیتی در Claude Code نشان داد که حتی ابزارهای پیشرفته نیز در لایههای دسترسی به کدهای محرمانه با چالشهای جدی مواجه هستند. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، مدیریت دقیق لایههای عملیاتی در سیستمهای خودکار، تفاوت میان یک ابزار کاربردی و یک شکست فنی است.
طبق گزارش وبسایت dev.to، این عامل سه سند حیاتی شامل یک گردشکار مهندسی ۲۱۰ خطی، سامانهی تثبیت محدودیتها به نام ALICE-NOTES و یک سند شخصیت مرکزی را بررسی کرد. این عامل در ابتدا چهار دستهی خطا را گزارش داد:
- موردهای تکراری: سه مورد از نظم مهندسی که در چندین جای مختلف تکرار شده بود.
- تضادها: سه تناقض میان دستورات فعالشده با کلمات کلیدی و دستورات همیشگی.
- همپوشانیها: سه مکانیسم صادقانه و سیستمهای ثبت وقایع (Logging) که با هم تداخل داشتند.
- موارد منقضیشده: پنج ارجاع به عاملهای فرعی موجود نبودند یا دستورات git در مخزنی که git نداشت.
برای تایید این یافتهها، عامل اصلی سه عامل تخصصی دیگر شامل یک معمار نرمافزار، یک مهندس مستندات فنی و یک ارزیاب کیفیت را به کار گرفت. به نقل از گزارش مذکور، این خبرگان بهطور مستقل نتیجه گرفتند که تنها دو مورد از ۱۴ یافته، واقعاً نیاز به اصلاح داشتند: یک ارجاع ناقص به تابع زنجیرهای و یک پاراگراف تکراری در ALICE-NOTES که مدیریت سیستم را سخت میکرد.
این تحلیل فاش میکند که هوش مصنوعی تمایل خطرناکی دارد تا «لایهبندی معماری» را با «تکرار بیمورد» اشتباه بگیرد. آنچه عامل اولیه به عنوان تضاد میدید، در واقع یک مدل فعالسازی طبقهبندیشده بود که برای مدیریت پیچیدگیهای مختلف طراحی شده بود. این نوع خطاهای تشخیص، در واقع نسخهای پیچیدهتر از همان مشکلاتی است که در پروژه Loupe برای شناسایی باگهای خاموش در کدهای تولیدشده با AI بررسی شد، جایی که کدها با وجود پاس کردن تستها، همچنان دارای نقصهای ساختاری بودند.
برای توسعهدهندگانی که سیستمهای خودکار میسازند، این یک ریسک درجه دو است: خودِ فرآیند بازرسی میتواند باعث تخریب سیستم شود. اگر عامل بر اساس آن ۱۴ یافته عمل میکرد، یک معماری پیشرفته و لایهای را به یک ساختار تخت و ضعیف تبدیل میکرد.
این تجربه ثابت میکند که خود-اصلاحی در مدلهای عاملمحور (Agentic) نیازمند لنزهای متضاد و متنوع است تا پیچیدگیهای هدفمندِ سیستم حذف نشوند. ارزشمندترین بخش این فرآیند، یافتن خطاها نبود؛ بلکه تصمیم برای گرفتن بازخورد از چندین دیدگاه مختلف پیش از اجرای تغییرات بود.
گام بعدی شما
- در گردشکارهای عاملمحور خود، یک مرحله «بازبینیِ بازبین» (Review-the-Reviewer) اضافه کنید.
- هرگز اجازه ندهید یک عامل بهطور خودکار تغییرات ساختاری در اسناد معماری ایجاد کند بدون اینکه یک عامل با نقش «معمار» آن را تایید کند.
- تفاوت بین «redundancy» (تکرار مخرب) و «layering» (لایهبندی هدفمند) را در پرامپتهای سیستمی تعریف کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو