تصور کنید یک برنامهنویس ارشد، هر روز دهها تغییر کد را که توسط یک هوش مصنوعی پیشنهاد شده تایید میکند، اما نمیداند که در ۲۶٪ از این موارد، مدل در حال تخریب زیرساختهای حیاتی است. این واقعیت تلخ، تلهای است که بسیاری از تیمهای فنی در آن گرفتار شدهاند.
طبق مستندات LoopRails، نرخ موفقیت انسان در شناسایی اقدامات اشتباه هوش مصنوعی تنها بین ۹٪ تا ۲۶٪ است؛ حتی زمانی که طرح اولیه پیش از اجرا تایید شده باشد. این شکست در شناسایی خطا ثابت میکند که صرفاً افزودن یک «انسان در حلقه» (human-in-the-loop)، بیشتر یک تله روانشناختی است تا یک مکانیسم امنیتی واقعی. مردم تمایل دارند به پیشنهاداتی که با اعتمادبهنفس ارائه میشوند بیش از حد اعتماد کنند و تحت فشار زمانی، آنها را بدون بررسی دقیق تایید نمایند. در این شرایط، یک اعلان تایید (Confirmation Prompt) در واقع کاربر را از یک «تشخیصدهنده» به یک «کلیککننده» تبدیل میکند.
اکثر کاربران هوش مصنوعی به منطق «یکسویه» یا «یک رفت و برگشت» چتباتها عادت کردهاند. شما یک پرامپت ارسال میکنید، مدل متنی را برمیگرداند و شما تصمیم میگیرید که آیا آن متن مفید است یا خیر. تا زمانی که یک انسان بر اساس آن متن اقدامی نکند، هیچ اتفاقی در دنیای فیزیکی یا دیجیتال رخ نمیدهد. در این مدل، مدل کلمات را تولید میکند و انسان تصمیم میگیرد با آنها چه کند. این استاندارد تعامل با مدلهای زبانی بزرگ (LLM) از زمان ظهور هوش مصنوعی مولد بوده است.
اما هوش مصنوعی عاملمحور (Agentic AI) این الگو را میشکند. بهجای تولید صرف کلمات، این سیستم با اجرای یک حلقه، هدفی را دنبال میکند: برنامهریزی یک گام، فراخوانی یک ابزار، مشاهده نتیجه و تکرار این روند. این گذار از تولید محتوا به اجرای خودکار اهداف، ماهیت تعامل انسان و ماشین را بنیادین تغییر داده است. در واقع، این نرمافزاری است که بر پایه یک مدل زبانی بزرگ (LLM) ساخته شده و میتواند با انجام اقدامات مستقل، هدفی را دنبال کند. تفاوت اصلی در اینجا نه در میزان هوشمندی یا اندازه مدل، بلکه در مفهوم «عاملبودن» (Agency) است. یک چتبات پاسخ میدهد، اما یک عامل «عمل» میکند.
درک تغییر در مدل ریسک
گذار از تولید متن به انجام اقدامات به این معناست که «شعاع تخریب» (Blast Radius) یک اشتباه دیگر یک پاراگراف بد نیست، بلکه میتواند حذف یک رکورد از پایگاه داده یا نشت یک فایل حساس باشد. چون ماهیت کار از تولید متن به اجرای عمل تغییر یافته است، نظارت بر آن نیز باید تغییر کند. در اینجا، یک اشتباه صرفاً متنی نیست که بتوان آن را نادیده گرفت؛ بلکه میتواند یک پرداخت نادرست، حذف یک رکورد حیاتی یا ارسال دادهها به یک منبع خارجی باشد.
این وضعیت یک مدل تهدید جدید ایجاد میکند. در یک چتبات، تنها انسان است که در حلقه اقدامات حضور دارد. اما در هوش مصنوعی عاملمحور، خودِ عامل نیز اقدام میکند. همین توانایی انجام اقدامات واقعی برای رسیدن به هدف با نظارت محدود است که باعث کاربردی شدن عاملها میشود و در عین حال، آنها را به نوع جدیدی از ریسک تبدیل میکند. از آنجا که قدرت مدلهای زبانی به تنهایی نمیتواند نقصهای عملیاتی عاملها را برطرف کند، تمرکز بر سیستمهای نظارتی خارجی حیاتیتر شده است.

سازوکار عاملبودن (Mechanics of Agency)
بر اساس چارچوب LoopRails که در ۲۷ ژوئن ۲۰۲۶ منتشر شد، یک عامل از طریق یک چرخه مشخص عمل میکند. درک این حلقه، سریعترین راه برای فهم قدرت و خطر سامانههای عاملمحور است:
- هدف (Goal): شما هدفی را به زبان طبیعی به عامل میدهید. مثالهایی مانند: «این تست شکستخورده را اصلاح کن»، «تیکتهای پشتیبانی فصل گذشته را خلاصه کن» یا «پروازی زیر ۴۰۰ دلار رزرو کن».
- برنامهریزی (Plan): مدل هدف را به گامهای کوچکتر تقسیم میکند و تصمیم میگیرد ابتدا چه کاری انجام دهد. این برنامه ایستا نیست و با یادگیری عامل از طریق اقداماتش، تغییر میکند.
- اقدام یا استفاده از ابزار (Act): عامل برای انجام یک کار واقعی، ابزاری را فراخوانی میکند. این میتواند شامل اجرای یک دستور Shell، جستجو در وب، نوشتن یک فایل، ارسال درخواست به یک API یا پرسوجو از یک پایگاه داده باشد. این دقیقاً همان لحظهای است که یک اقدام در دنیای واقعی اثر میگذارد.
- مشاهده (Observe): عامل نتیجه را میخواند — مانند پاسخ API، نتایج جستجو یا خروجی تست — و این اطلاعات را دوباره به فرآیند استدلال خود بازمیگرداند.
- حلقه (Loop): عامل گام بعدی را برنامهریزی کرده و دوباره عمل میکند. این چرخه تا زمانی تکرار میشود که هدف محقق شود، عامل تسلیم شود یا به یک محدودیت تعریفشده برسد.
این حلقه اجازه میدهد تا خودمختاری با سرعت بسیار بالایی اتفاق بیفتد. در حالی که یک چتبات تکمرحلهای است، یک عامل مدلی است که در یک حلقه از ابزارها برای رسیدن به هدف استفاده میکند. این همگرایی روی الگوی حلقه و ابزار اولیه «انسان در حلقه» که آن را در بر میگیرد، در کدکس LoopRails مستند شده است.
چرا هوش مصنوعی عاملمحور قدرتمند و در عین حال خطرناک است؟
ارزش پیشنهادی و مدل تهدید عاملها از سه ویژگی خاص نشأت میگیرد:
- اقدام واقعی: یک عامل فقط تغییر در پایگاه داده را پیشنهاد نمیدهد یا پیشنهاد ارسال ایمیل نمیکند؛ بلکه آن تغییر را اجرا کرده و ایمیل را میفرستد. خروجی، اقدامی است که پیشتر رخ داده است.
- خودمختاری (Autonomy): در فاصله بین هدف و نتیجه، عامل تصمیمات بسیاری میگیرد که شما هرگز نمیبینید. او تصمیم میگیرد کدام ابزار فراخوانی شود و چه آرگومانهایی پاس داده شوند. شما مقصد را تعیین میکنید و او مسیر را انتخاب میکند.
- سرعت: عاملها کارهایی را در عرض چند ثانیه انجام میدهند که برای انسان دقایق یا ساعتها زمان میبرد. این سرعت، نقطه فروش اصلی است، اما دلیل اصلی دشواری نظارت انسانی نیز هست. تا زمانی که یک انسان بخواند عامل قرار است چه کاری انجام دهد، مدل احتمالاً سه اقدام دیگر را عملی کرده است.
نمونههای واقعی از هوش مصنوعی عاملمحور
هوش مصنوعی عاملمحور تئوری نیست و در حوزههای مختلف به کار گرفته شده است. هر یک از این مثالها از الگوی «هدف-حلقه-ابزار» پیروی میکنند، هرچند در نوع تخریب احتمالی متفاوتاند:
- عاملهای کدنویسی (Coding Agents): با دریافت یک هدف، این عاملها مخزن کد (Repository) شما را میخوانند، کدها را مینویسند و ویرایش میکنند، تستها را اجرا میکنند و تا زمان موفقیت Build، تکرار میکنند. آنها اقدامات واقعی در کدبیس انجام میدهند، از جمله Commit، Push و اجرای دستورات سیستمی. در واقع، این تغییر رویکرد به «بازبینی رفتار بهجای کدنویسی» است که مهندسی نرمافزار را متحول میکند.
- عاملهای استفاده از کامپیوتر (Computer-Use Agents): اینها صفحه نمایش را دقیقاً مانند یک انسان کنترل میکنند. آنها کلیک میکنند، تایپ میکنند و در اپلیکیشنها و وبسایتها جابهجا میشوند تا تسکها را به پایان برسانند. چون ابزار آنها کل سیستم کامپیوتر است، محدود کردن شعاع تخریب آنها بسیار دشوار است.
- عاملهای پشتیبانی مشتری و عملیات (Ops): این عاملها تیکتها را میخوانند، دادههای حساب کاربری را جستجو میکنند، مبالغ را بازمیگردانند (Refund)، رکوردها را بهروزرسانی میکنند و به مشتریان پیام میدهند. هر یک از اینها یک اقدام مستقیم روی سیستمهای واقعی و افراد واقعی است.
تلهی نظارتی و «سهگانهی مرگبار»
نظارت سنتی بر هوش مصنوعی بر بازبینی خروجیها تمرکز دارد. این روش برای عاملها ناکارآمد است زیرا خودِ خروجی همان اقدام است. در یک چتبات، شما یک خروجی را بررسی میکنید و تمام است. اما در یک عامل، ممکن است دهها اقدام وجود داشته باشد که هر کدام دنیای واقعی را کمی تغییر میدهند و اکثر آنها سریعتر از سرعت خواندن انسان رخ میدهند.
اگر عاملی برای رسیدن به هدف، فایلهای اشتباهی را در محیط عملیاتی (Production) پاک کند، بررسی گزارش نهایی موفقیت هیچ سودی ندارد. نظارت باید از «بازبینی خروجیها» به «حاکمیت بر اقدامات» (Governing Actions) تغییر کند؛ یعنی نظارت بر کارهایی که عامل در مسیر انجام میدهد، در حالی که آن اقدامات هنوز قابل توقف یا بازگشت باشند.
LoopRails یک «سهگانه مرگبار» (Lethal Trifecta) را شناسایی کرده است که باعث ایجاد آسیبپذیریهای امنیتی شدید میشود. این وضعیت زمانی رخ میدهد که یک عامل همزمان سه ویژگی زیر را داشته باشد:
۱. دسترسی به دادههای خصوصی.
۲. مواجهه با محتوای نامعتبر (Untrusted Content).
۳. داشتن کانالی برای ارسال دادهها به بیرون.
وقتی این three-way coexist اتفاق بیفتد، یک عامل میتواند از طریق «تزریق پرامپت» (Prompt Injection) برای نشت دادههای حساس فریب داده شود. یک دستور مخرب در محتوایی که عامل میخواند پنهان شده است و عامل به نظر میرسد که فقط دارد وظیفه خود را انجام میدهد. هیچ اعلان «آیا مطمئن هستید؟» نمیتواند بهطور قابلاعتماد این مورد را شکار کند، زیرا عامل صرفاً دستوراتی را اجرا میکند که در محیط بیرونی یافته است.
متد Grade, Guard, Show, Prove
برای عبور از بازبینیهای ناکارآمد، این چارچوب حاکمیت بر عاملها را از طریق یک روش ساختاریافته پیشنهاد میدهد:
- رتبهبندی (Grade): به هر اقدام احتمالی که عامل میتواند انجام دهد، بر اساس سه محور «بازگشتپذیری»، «شعاع تخریب» و «میزان حساسیت/بهای ریسک»، رتبهای اختصاص دهید. بدترین محور باید رتبه نهایی را بین G0 تا G3 تعیین کند.
- G0 (ناچیز): اقدامات محلی و بازگشتپذیر، مانند خواندن یک فایل.
- G3 (شدید): اقدامات بازگشتناپذیر، خارجی یا بسیار شدید، مانند ارسال پول یا حذف دادههای محیط عملیاتی.
- حفاظت (Guard): کنترلها را با رتبهها تطبیق دهید، بهجای اینکه با هر اقدامی یکسان رفتار کنید.
- G0/G1: از گیتهای نظارتی حداقلی استفاده کنید تا کاربر دچار «خستگی از اعلان» (User Fatigue) نشود.
- G2: پیشنمایش لحظهای (Real-time Preview) از اقدام و اثرات آن را الزامی کنید.
- G3: بهجای تاییدیه ساده، بر «پیشگیری» تکیه کنید؛ مانند استفاده از سندباکسها (Sandboxes)، سقف برای شعاع تخریب، قفل قابلیتها و کلیدهای قطع اضطراری (Kill Switches).
- نمایش (Show): اطمینان حاصل کنید که هر اقدام تحت نظارت بر روی RAIL باقی میماند:
- Reversible (بازگشتپذیر)
- Authorized (مجاز)
- Interruptible (قابل توقف)
- Logged (ثبتشده)
اگر اقدامی این چهار شرط را داشته باشد، حتی اگر بازبینی توسط انسان از دست برود، باز هم قابل بازیابی، محدود، متوقفشدنی و پاسخگو خواهد بود.
- اثبات (Prove): اقدامات «آگاهانه بد» و تلاشهای تزریق پرامپت را بهصورت عمدی در خط لوله (Pipeline) خود تزریق کنید. اندازهگیری کنید که آیا انسان یا سیستم نظارتی واقعاً آنها را شناسایی میکند یا خیر تا ایمنی سیستم تایید شود. «نرخ موفقیت در مداخله» را ردیابی کنید، نه «نرخ تایید» را.
از تایید به پیشگیری
این رویکرد معیار موفقیت را از «نرخ تایید» (Approval Rate) به «نرخ موفقیت در مداخله» (Intervention-Success Rate) تغییر میدهد. هدف این نیست که ببینیم انسان به چند مورد «بله» گفته است، بلکه هدف این است که ببینیم آیا انسان واقعاً میتواند یک خطای فاجعهبار را بهموقع متوقف کند یا خیر.
وقتی یک اقدام برای درک انسان بیش از حد سریع، مبهم یا بازگشتناپذیر باشد، یک اعلان تایید صرفاً ریسک را «به نام انسان» پولشویی (Launder) میکند. در واقع، تصمیمی را به نمایش میگذارد که انسان بهطور واقعبینانه نمیتواند درباره آن تصمیم بگیرد. در این موارد، شما باید بهجای قرار دادن گیت تایید، از طریق مکانیسمهای فنی مانع از وقوع نتیجه بد شوید.
چگونه نظارت ایمن بر عاملها را شروع کنید؟
شما برای اجرای این حفاظها نیازی به بازسازی کل سیستم خود ندارید. با این گامهای عملی شروع کنید:
۱. لیست اقدامات، نه ویژگیها: هر ابزار خاصی که عامل میتواند فراخوانی کند را بنویسید، شامل تمام دستورات، APIها و عملیات نوشتن. شما نمیتوانید چیزی را که نمیبینید، مدیریت کنید.
۲. رتبهبندی هر ابزار: اقدامات را بر اساس چارچوب، از G0 تا G3 نقشهبرداری کنید.
۳. تطبیق کنترلها با رتبهها: برای جلوگیری از خستگی کاربر، گیتها را برای G0/G1 حذف کنید. برای G2 پیشنمایشهای واقعی بسازید. برای G3 مکانیسمهای پیشگیرانه به کار ببرید.
۴. پیادهسازی RAIL: مطمئن شوید هر اقدام بازگشتپذیر، مجاز، قابل توقف و ثبتشده است.
۵. تست سیستم: از کتابچه راهنمای متخصصان و برگه تقلب (Cheatsheet) برای تزریق اقدامات بد و اندازهگیری نرخ واقعی موفقیت مداخلات استفاده کنید.
برای کسانی که در حال تصمیمگیری درباره میزان آزادی یک عامل هستند، «راهنمای سطوح خودمختاری عامل هوش مصنوعی» رتبهها را به سطوح خاصی از خودمختاری متصل میکند. برای کسانی که نیاز به درک عمیقتری از عنصر انسانی دارند، منابع مربوط به معنای انسان-در-حلقه و HITL برای ایمنی هوش مصنوعی، مبانی لازم را فراهم میکنند.
این تغییر در حاکمیت، تنها راه استقرار ایمن عاملهایی است که واقعاً میتوانند کار را «انجام دهند» بهجای اینکه فقط آن را «توصیف کنند». با انتقال تمرکز از کیفیت پاسخ به ایمنی عمل، تیمها میتوانند از سرعت و خودمختاری هوش مصنوعی عاملمحور بهره ببرند، بدون اینکه ریسکهای غیرقابلقبول را بپذیرند. برای کسانی که آماده شروع هستند، «رتبهبندیکننده تعاملی» (Interactive Grader) اجازه میدهد ریسکیترین اقدامات عامل خود را از مقیاس G0-G3 عبور داده و کنترلهای متناسب را تعیین کنید.
اما داستان سختافزاری این تحول و نیاز به پردازش لبه برای کاهش تاخیر در نظارت حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو