چرا نظارت انسانی نمی‌تواند جلوی خطاهای عامل‌های هوش مصنوعی را بگیرد؟

تصور کنید یک برنامه‌نویس ارشد، هر روز ده‌ها تغییر کد را که توسط یک هوش مصنوعی پیشنهاد شده تایید می‌کند، اما نمی‌داند که در ۲۶٪ از این موارد، مدل در حال تخریب زیرساخت‌های حیاتی است. این واقعیت تلخ، تله‌ای است که بسیاری از تیم‌های فنی در آن گرفتار شده‌اند.

طبق مستندات LoopRails، نرخ موفقیت انسان در شناسایی اقدامات اشتباه هوش مصنوعی تنها بین ۹٪ تا ۲۶٪ است؛ حتی زمانی که طرح اولیه پیش از اجرا تایید شده باشد. این شکست در شناسایی خطا ثابت می‌کند که صرفاً افزودن یک «انسان در حلقه» (human-in-the-loop)، بیشتر یک تله روان‌شناختی است تا یک مکانیسم امنیتی واقعی. مردم تمایل دارند به پیشنهاداتی که با اعتمادبه‌نفس ارائه می‌شوند بیش از حد اعتماد کنند و تحت فشار زمانی، آن‌ها را بدون بررسی دقیق تایید نمایند. در این شرایط، یک اعلان تایید (Confirmation Prompt) در واقع کاربر را از یک «تشخیص‌دهنده» به یک «کلیک‌کننده» تبدیل می‌کند.

اکثر کاربران هوش مصنوعی به منطق «یک‌سویه» یا «یک رفت و برگشت» چت‌بات‌ها عادت کرده‌اند. شما یک پرامپت ارسال می‌کنید، مدل متنی را برمی‌گرداند و شما تصمیم می‌گیرید که آیا آن متن مفید است یا خیر. تا زمانی که یک انسان بر اساس آن متن اقدامی نکند، هیچ اتفاقی در دنیای فیزیکی یا دیجیتال رخ نمی‌دهد. در این مدل، مدل کلمات را تولید می‌کند و انسان تصمیم می‌گیرد با آن‌ها چه کند. این استاندارد تعامل با مدل‌های زبانی بزرگ (LLM) از زمان ظهور هوش مصنوعی مولد بوده است.

اما هوش مصنوعی عامل‌محور (Agentic AI) این الگو را می‌شکند. به‌جای تولید صرف کلمات، این سیستم با اجرای یک حلقه، هدفی را دنبال می‌کند: برنامه‌ریزی یک گام، فراخوانی یک ابزار، مشاهده نتیجه و تکرار این روند. این گذار از تولید محتوا به اجرای خودکار اهداف، ماهیت تعامل انسان و ماشین را بنیادین تغییر داده است. در واقع، این نرم‌افزاری است که بر پایه یک مدل زبانی بزرگ (LLM) ساخته شده و می‌تواند با انجام اقدامات مستقل، هدفی را دنبال کند. تفاوت اصلی در اینجا نه در میزان هوشمندی یا اندازه مدل، بلکه در مفهوم «عامل‌بودن» (Agency) است. یک چت‌بات پاسخ می‌دهد، اما یک عامل «عمل» می‌کند.

درک تغییر در مدل ریسک

گذار از تولید متن به انجام اقدامات به این معناست که «شعاع تخریب» (Blast Radius) یک اشتباه دیگر یک پاراگراف بد نیست، بلکه می‌تواند حذف یک رکورد از پایگاه داده یا نشت یک فایل حساس باشد. چون ماهیت کار از تولید متن به اجرای عمل تغییر یافته است، نظارت بر آن نیز باید تغییر کند. در اینجا، یک اشتباه صرفاً متنی نیست که بتوان آن را نادیده گرفت؛ بلکه می‌تواند یک پرداخت نادرست، حذف یک رکورد حیاتی یا ارسال داده‌ها به یک منبع خارجی باشد.

این وضعیت یک مدل تهدید جدید ایجاد می‌کند. در یک چت‌بات، تنها انسان است که در حلقه اقدامات حضور دارد. اما در هوش مصنوعی عامل‌محور، خودِ عامل نیز اقدام می‌کند. همین توانایی انجام اقدامات واقعی برای رسیدن به هدف با نظارت محدود است که باعث کاربردی شدن عامل‌ها می‌شود و در عین حال، آن‌ها را به نوع جدیدی از ریسک تبدیل می‌کند. از آنجا که قدرت مدل‌های زبانی به تنهایی نمی‌تواند نقص‌های عملیاتی عامل‌ها را برطرف کند، تمرکز بر سیستم‌های نظارتی خارجی حیاتی‌تر شده است.

هوش مصنوعی عامل‌محور چیست و چرا نظارت بر آن باید تغییر کند

سازوکار عامل‌بودن (Mechanics of Agency)

بر اساس چارچوب LoopRails که در ۲۷ ژوئن ۲۰۲۶ منتشر شد، یک عامل از طریق یک چرخه مشخص عمل می‌کند. درک این حلقه، سریع‌ترین راه برای فهم قدرت و خطر سامانه‌های عامل‌محور است:

هدف (Goal): شما هدفی را به زبان طبیعی به عامل می‌دهید. مثال‌هایی مانند: «این تست شکست‌خورده را اصلاح کن»، «تیکت‌های پشتیبانی فصل گذشته را خلاصه کن» یا «پروازی زیر ۴۰۰ دلار رزرو کن».
برنامه‌ریزی (Plan): مدل هدف را به گام‌های کوچک‌تر تقسیم می‌کند و تصمیم می‌گیرد ابتدا چه کاری انجام دهد. این برنامه ایستا نیست و با یادگیری عامل از طریق اقداماتش، تغییر می‌کند.
اقدام یا استفاده از ابزار (Act): عامل برای انجام یک کار واقعی، ابزاری را فراخوانی می‌کند. این می‌تواند شامل اجرای یک دستور Shell، جستجو در وب، نوشتن یک فایل، ارسال درخواست به یک API یا پرس‌وجو از یک پایگاه داده باشد. این دقیقاً همان لحظه‌ای است که یک اقدام در دنیای واقعی اثر می‌گذارد.
مشاهده (Observe): عامل نتیجه را می‌خواند — مانند پاسخ API، نتایج جستجو یا خروجی تست — و این اطلاعات را دوباره به فرآیند استدلال خود بازمی‌گرداند.
حلقه (Loop): عامل گام بعدی را برنامه‌ریزی کرده و دوباره عمل می‌کند. این چرخه تا زمانی تکرار می‌شود که هدف محقق شود، عامل تسلیم شود یا به یک محدودیت تعریف‌شده برسد.

این حلقه اجازه می‌دهد تا خودمختاری با سرعت بسیار بالایی اتفاق بیفتد. در حالی که یک چت‌بات تک‌مرحله‌ای است، یک عامل مدلی است که در یک حلقه از ابزارها برای رسیدن به هدف استفاده می‌کند. این همگرایی روی الگوی حلقه و ابزار اولیه «انسان در حلقه» که آن را در بر می‌گیرد، در کدکس LoopRails مستند شده است.

چرا هوش مصنوعی عامل‌محور قدرتمند و در عین حال خطرناک است؟

ارزش پیشنهادی و مدل تهدید عامل‌ها از سه ویژگی خاص نشأت می‌گیرد:

اقدام واقعی: یک عامل فقط تغییر در پایگاه داده را پیشنهاد نمی‌دهد یا پیشنهاد ارسال ایمیل نمی‌کند؛ بلکه آن تغییر را اجرا کرده و ایمیل را می‌فرستد. خروجی، اقدامی است که پیش‌تر رخ داده است.
خودمختاری (Autonomy): در فاصله بین هدف و نتیجه، عامل تصمیمات بسیاری می‌گیرد که شما هرگز نمی‌بینید. او تصمیم می‌گیرد کدام ابزار فراخوانی شود و چه آرگومان‌هایی پاس داده شوند. شما مقصد را تعیین می‌کنید و او مسیر را انتخاب می‌کند.
سرعت: عامل‌ها کارهایی را در عرض چند ثانیه انجام می‌دهند که برای انسان دقایق یا ساعت‌ها زمان می‌برد. این سرعت، نقطه فروش اصلی است، اما دلیل اصلی دشواری نظارت انسانی نیز هست. تا زمانی که یک انسان بخواند عامل قرار است چه کاری انجام دهد، مدل احتمالاً سه اقدام دیگر را عملی کرده است.

نمونه‌های واقعی از هوش مصنوعی عامل‌محور

هوش مصنوعی عامل‌محور تئوری نیست و در حوزه‌های مختلف به کار گرفته شده است. هر یک از این مثال‌ها از الگوی «هدف-حلقه-ابزار» پیروی می‌کنند، هرچند در نوع تخریب احتمالی متفاوت‌اند:

عامل‌های کدنویسی (Coding Agents): با دریافت یک هدف، این عامل‌ها مخزن کد (Repository) شما را می‌خوانند، کدها را می‌نویسند و ویرایش می‌کنند، تست‌ها را اجرا می‌کنند و تا زمان موفقیت Build، تکرار می‌کنند. آن‌ها اقدامات واقعی در کدبیس انجام می‌دهند، از جمله Commit، Push و اجرای دستورات سیستمی. در واقع، این تغییر رویکرد به «بازبینی رفتار به‌جای کدنویسی» است که مهندسی نرم‌افزار را متحول می‌کند.
عامل‌های استفاده از کامپیوتر (Computer-Use Agents): این‌ها صفحه نمایش را دقیقاً مانند یک انسان کنترل می‌کنند. آن‌ها کلیک می‌کنند، تایپ می‌کنند و در اپلیکیشن‌ها و وب‌سایت‌ها جابه‌جا می‌شوند تا تسک‌ها را به پایان برسانند. چون ابزار آن‌ها کل سیستم کامپیوتر است، محدود کردن شعاع تخریب آن‌ها بسیار دشوار است.
عامل‌های پشتیبانی مشتری و عملیات (Ops): این عامل‌ها تیکت‌ها را می‌خوانند، داده‌های حساب کاربری را جستجو می‌کنند، مبالغ را بازمی‌گردانند (Refund)، رکوردها را به‌روزرسانی می‌کنند و به مشتریان پیام می‌دهند. هر یک از این‌ها یک اقدام مستقیم روی سیستم‌های واقعی و افراد واقعی است.

تله‌ی نظارتی و «سه‌گانه‌ی مرگبار»

نظارت سنتی بر هوش مصنوعی بر بازبینی خروجی‌ها تمرکز دارد. این روش برای عامل‌ها ناکارآمد است زیرا خودِ خروجی همان اقدام است. در یک چت‌بات، شما یک خروجی را بررسی می‌کنید و تمام است. اما در یک عامل، ممکن است ده‌ها اقدام وجود داشته باشد که هر کدام دنیای واقعی را کمی تغییر می‌دهند و اکثر آن‌ها سریع‌تر از سرعت خواندن انسان رخ می‌دهند.

اگر عاملی برای رسیدن به هدف، فایل‌های اشتباهی را در محیط عملیاتی (Production) پاک کند، بررسی گزارش نهایی موفقیت هیچ سودی ندارد. نظارت باید از «بازبینی خروجی‌ها» به «حاکمیت بر اقدامات» (Governing Actions) تغییر کند؛ یعنی نظارت بر کارهایی که عامل در مسیر انجام می‌دهد، در حالی که آن اقدامات هنوز قابل توقف یا بازگشت باشند.

LoopRails یک «سه‌گانه مرگبار» (Lethal Trifecta) را شناسایی کرده است که باعث ایجاد آسیب‌پذیری‌های امنیتی شدید می‌شود. این وضعیت زمانی رخ می‌دهد که یک عامل همزمان سه ویژگی زیر را داشته باشد:
۱. دسترسی به داده‌های خصوصی.
۲. مواجهه با محتوای نامعتبر (Untrusted Content).
۳. داشتن کانالی برای ارسال داده‌ها به بیرون.

وقتی این three-way coexist اتفاق بیفتد، یک عامل می‌تواند از طریق «تزریق پرامپت» (Prompt Injection) برای نشت داده‌های حساس فریب داده شود. یک دستور مخرب در محتوایی که عامل می‌خواند پنهان شده است و عامل به نظر می‌رسد که فقط دارد وظیفه خود را انجام می‌دهد. هیچ اعلان «آیا مطمئن هستید؟» نمی‌تواند به‌طور قابل‌اعتماد این مورد را شکار کند، زیرا عامل صرفاً دستوراتی را اجرا می‌کند که در محیط بیرونی یافته است.

متد Grade, Guard, Show, Prove

برای عبور از بازبینی‌های ناکارآمد، این چارچوب حاکمیت بر عامل‌ها را از طریق یک روش ساختاریافته پیشنهاد می‌دهد:

رتبه‌بندی (Grade): به هر اقدام احتمالی که عامل می‌تواند انجام دهد، بر اساس سه محور «بازگشت‌پذیری»، «شعاع تخریب» و «میزان حساسیت/بهای ریسک»، رتبه‌ای اختصاص دهید. بدترین محور باید رتبه نهایی را بین G0 تا G3 تعیین کند.
- G0 (ناچیز): اقدامات محلی و بازگشت‌پذیر، مانند خواندن یک فایل.
- G3 (شدید): اقدامات بازگشت‌ناپذیر، خارجی یا بسیار شدید، مانند ارسال پول یا حذف داده‌های محیط عملیاتی.
حفاظت (Guard): کنترل‌ها را با رتبه‌ها تطبیق دهید، به‌جای اینکه با هر اقدامی یکسان رفتار کنید.
- G0/G1: از گیت‌های نظارتی حداقلی استفاده کنید تا کاربر دچار «خستگی از اعلان» (User Fatigue) نشود.
- G2: پیش‌نمایش لحظه‌ای (Real-time Preview) از اقدام و اثرات آن را الزامی کنید.
- G3: به‌جای تاییدیه ساده، بر «پیشگیری» تکیه کنید؛ مانند استفاده از سندباکس‌ها (Sandboxes)، سقف برای شعاع تخریب، قفل قابلیت‌ها و کلیدهای قطع اضطراری (Kill Switches).
نمایش (Show): اطمینان حاصل کنید که هر اقدام تحت نظارت بر روی RAIL باقی می‌ماند:
- Reversible (بازگشت‌پذیر)
- Authorized (مجاز)
- Interruptible (قابل توقف)
- Logged (ثبت‌شده)
  اگر اقدامی این چهار شرط را داشته باشد، حتی اگر بازبینی توسط انسان از دست برود، باز هم قابل بازیابی، محدود، متوقف‌شدنی و پاسخگو خواهد بود.
اثبات (Prove): اقدامات «آگاهانه بد» و تلاش‌های تزریق پرامپت را به‌صورت عمدی در خط لوله (Pipeline) خود تزریق کنید. اندازه‌گیری کنید که آیا انسان یا سیستم نظارتی واقعاً آن‌ها را شناسایی می‌کند یا خیر تا ایمنی سیستم تایید شود. «نرخ موفقیت در مداخله» را ردیابی کنید، نه «نرخ تایید» را.

از تایید به پیشگیری

این رویکرد معیار موفقیت را از «نرخ تایید» (Approval Rate) به «نرخ موفقیت در مداخله» (Intervention-Success Rate) تغییر می‌دهد. هدف این نیست که ببینیم انسان به چند مورد «بله» گفته است، بلکه هدف این است که ببینیم آیا انسان واقعاً می‌تواند یک خطای فاجعه‌بار را به‌موقع متوقف کند یا خیر.

وقتی یک اقدام برای درک انسان بیش از حد سریع، مبهم یا بازگشت‌ناپذیر باشد، یک اعلان تایید صرفاً ریسک را «به نام انسان» پول‌شویی (Launder) می‌کند. در واقع، تصمیمی را به نمایش می‌گذارد که انسان به‌طور واقع‌بینانه نمی‌تواند درباره آن تصمیم بگیرد. در این موارد، شما باید به‌جای قرار دادن گیت تایید، از طریق مکانیسم‌های فنی مانع از وقوع نتیجه بد شوید.

چگونه نظارت ایمن بر عامل‌ها را شروع کنید؟

شما برای اجرای این حفاظ‌ها نیازی به بازسازی کل سیستم خود ندارید. با این گام‌های عملی شروع کنید:

۱. لیست اقدامات، نه ویژگی‌ها: هر ابزار خاصی که عامل می‌تواند فراخوانی کند را بنویسید، شامل تمام دستورات، APIها و عملیات نوشتن. شما نمی‌توانید چیزی را که نمی‌بینید، مدیریت کنید.
۲. رتبه‌بندی هر ابزار: اقدامات را بر اساس چارچوب، از G0 تا G3 نقشه‌برداری کنید.
۳. تطبیق کنترل‌ها با رتبه‌ها: برای جلوگیری از خستگی کاربر، گیت‌ها را برای G0/G1 حذف کنید. برای G2 پیش‌نمایش‌های واقعی بسازید. برای G3 مکانیسم‌های پیشگیرانه به کار ببرید.
۴. پیاده‌سازی RAIL: مطمئن شوید هر اقدام بازگشت‌پذیر، مجاز، قابل توقف و ثبت‌شده است.
۵. تست سیستم: از کتابچه راهنمای متخصصان و برگه تقلب (Cheatsheet) برای تزریق اقدامات بد و اندازه‌گیری نرخ واقعی موفقیت مداخلات استفاده کنید.

برای کسانی که در حال تصمیم‌گیری درباره میزان آزادی یک عامل هستند، «راهنمای سطوح خودمختاری عامل هوش مصنوعی» رتبه‌ها را به سطوح خاصی از خودمختاری متصل می‌کند. برای کسانی که نیاز به درک عمیق‌تری از عنصر انسانی دارند، منابع مربوط به معنای انسان-در-حلقه و HITL برای ایمنی هوش مصنوعی، مبانی لازم را فراهم می‌کنند.

این تغییر در حاکمیت، تنها راه استقرار ایمن عامل‌هایی است که واقعاً می‌توانند کار را «انجام دهند» به‌جای اینکه فقط آن را «توصیف کنند». با انتقال تمرکز از کیفیت پاسخ به ایمنی عمل، تیم‌ها می‌توانند از سرعت و خودمختاری هوش مصنوعی عامل‌محور بهره ببرند، بدون اینکه ریسک‌های غیرقابل‌قبول را بپذیرند. برای کسانی که آماده شروع هستند، «رتبه‌بندی‌کننده تعاملی» (Interactive Grader) اجازه می‌دهد ریسکی‌ترین اقدامات عامل خود را از مقیاس G0-G3 عبور داده و کنترل‌های متناسب را تعیین کنید.

اما داستان سخت‌افزاری این تحول و نیاز به پردازش لبه برای کاهش تاخیر در نظارت حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.