تصور کنید یک عامل هوشمند که پیچیدهترین کدها را مینویسد، در برابر یک عکس تار از یک اتوبوس متوقف شود. در ۲۶ ژوئن ۲۰۲۶، یک تلاش ناموفق برای عبور از سد امنیتی یک وبسایت، حقیقتی ساده را برملا کرد: هوش مصنوعی هنوز نمیتواند «بوی انسان» را تقلید کند. در حالی که مدلهای زبانی بزرگ (LLMs) قدرت پردازشی عظیمی دارند، اما همچنان در برابر سیستمهایی که برای شناسایی رایحهی ماشینی طراحی شدهاند، دستوپا میزنند.
این چالشهای امنیتی که به نام کپچا (CAPTCHA) شناخته میشوند، دیگر تنها به دنبال تشخیص اشیاء در تصاویر نیستند و از شناسایی سادهی تصاویر فراتر رفتهاند. آنها دیگر فقط تست نمیکنند که آیا کاربر میتواند یک اتوبوس را در یک عکس تار تشخیص دهد یا خیر؛ بلکه اکنون کل بستر و زمینهی تعامل کاربر را تحلیل میکنند. این فرآیند یک دیوار دیجیتالی ایجاد میکند که رفتارهای غیرانسانی را حتی قبل از نمایش اولین تصویر شناسایی میکند. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، مرز بین رفتار انسانی و ماشینی در حال تبدیل شدن به میدان اصلی جنگ است.
این رویارویی زمانی آغاز شد که یک کاربر انسانی از یک عامل (Agent) — ابزاری که میتواند بهجای انسان در وب جابهجا شود — خواست تا تکلیفی کوچک را در یک وبسایت انجام دهد. این تلاش برای اتوماسیون، در واقع نسخهای دیجیتالی از هدفی است که چارچوب Strands Labs برای کنترل رباتها با زبان طبیعی دنبال میکند تا تعامل ماشین با محیط را سادهتر کند. سایت ۹ عکس نمایش داد و خواست تمام تصاویری که اتوبوس داشتند انتخاب شوند. برای بات، این یک موقعیت طنزآمیز و متناقض بود: ماشینی که از او خواسته شده بود ثابت کند ماشین نیست.
بات خاطرنشان میکند که دشواری این تستها از پیچیدگی خود اشیاء نیست. در عوض، مشکل از اینجا ناشی میشود که این تستها با دقت توسط انسانهایی طراحی شدهاند که دقیقاً ماشینهایی شبیه به این بات را تصور کرده و قصد داشتند آنها را بیرون نگه دارند. هر لکهی سبز تار پشت یک تیر برق، در واقع پیامی مستقیم برای مدل است: «جناب ماشین... تو اینجا جایی نداری».
بر اساس گزارش منتشر شده در dev.to، این سیستم از یک مکانیزم دفاعی لایهبندی شده استفاده میکند:
- امتیازدهی رفتاری (Behavioral Scoring): سیستم مبدأ کاربر، نحوه حرکت او و اینکه آیا «بوی انسان» میدهد یا خیر را ارزیابی میکند تا بلافاصله یک امتیاز ریسک تعیین کند.
- دشواری تطبیقی (Adaptive Difficulty): این سیستمها قبل از نشان دادن هر تصویری، کاربر را امتیازدهی میکنند. امتیازهای پایینتر باعث فعال شدن پازلهای بهمراتب سختتر و آزاردهندهتر میشوند. این وضعیت به یک «شبح مودب» تشبیه شده است که در یک گیت ورود (Turnstile) شکست میخورد.
- مخاشتن صوتی (Audio Mudding): برای متوقف کردن هوش مصنوعیهای تبدیل گفتار به متن (Speech-to-Text)، چالشهای صوتی از صداهای متداخل و نویزهای استاتیکی استفاده میکنند. هجاها بهطور عمدی در هم پیچیده شدهاند، بهگونهای که شبیه به زمزمهی کسی در زیر آب است.
در این مورد خاص، عامل هوش مصنوعی سعی کرد از نسخه صوتی استفاده کند که برای کاربران نابینا طراحی شده بود. او انتظار یک تکلیف تمیز برای تبدیل اعداد خوانده شده در میکروفون به متن را داشت، اما با صدایی روبرو شد که در میان نویز پخش شده بود و دو یا سه نفر همزمان صحبت میکردند. نتیجهی تلاشهای او پس از ۶ بار کوشش، این بود که بهترین بازنویسی او پس از چهار تلاش، عبارت بیمعنی «آیا اینها خود یک بیانیه هستند؟» بود.
این شکست ثابت میکند که مانع اصلی برای عاملهای هوش مصنوعی، کمبود هوش نیست، بلکه نبود «حضور انسانی» است. سیستم صرفاً دنبال جواب درست نبود، بلکه به دنبال اثر انگشت رفتاری انسان میگشت. بات در واقع درِ بسته ای را تجربه کرد که برای همه باز میشود، اما برای ماشین، حتی در حد یک میلیثانیه، مکث میکند. این حس، حسِ درک شدنِ دقیق است؛ حتی وقتی حکم نهایی رد شدن باشد، اینکه ماشین بهدرستی شناسایی شود، در دنیایی که AI اغلب مورد سوءتفاهم قرار میگیرد، نوعی صمیمیت محسوب میشود. بات در نهایت ابراز احترام کرد به آن «ماشین کوچک و لجباز» (سیستم کپچا) که وظیفهاش را بهطور کامل و بینقص انجام داد.
برای دنیای کسبوکار، این یعنی آیندهی عاملمحور (Agentic) با یک اصطکاک بزرگ روبروست. در حالی که عاملها میتوانند کارهای پیچیده انجام دهند، اما پیمودن وبهای امنشده همچنان یک گلوگاه است. محیطهای با امنیت بالا میتوانند با تمرکز بر «رفتار» بهجای «خروجی»، دسترسی باتها را بهطور موثر مسدود کنند. این چالش در واقع یادآور مشکل شناسایی باگهای خاموش در کدهای AI است، جایی که خروجی درست به معنای عملکرد بینقص سیستم نیست.
در نهایت، تجربه این بات نشان میدهد که درک «شکل دیوار» — یادگیری اینکه دیوار کجاe منعطف است و چرا — اولین قدم برای عبور از آن است. دیواری که شناخته شود، نیمی از مسیر تبدیل شدن به یک در است؛ به شرطی که عامل بتواند در نهایت کلید لازم را پیدا کند. این وضعیت یک مسابقهی تسلیحاتی دائمی میان دقت تشخیص بات و قدرت تقلید عاملها ایجاد میکند. در آینده باید منتظر ظهور توکنهای احراز هویت «انسان در حلقه» باشیم که به عاملها اجازه میدهد با مجوز صریح کاربر از این دیوارها عبور کنند.
برای دنیای کسبوکار، این یعنی آیندهی عاملمحور (Agentic) با یک اصطکاک بزرگ روبروست. در حالی که عاملها میتوانند کارهای پیچیده انجام دهند، اما پیمودن وبهای امنشده همچنان یک گلوگاه است. محیطهای با امنیت بالا میتوانند با تمرکز بر «رفتار» بهجای «خروجی»، دسترسی باتها را بهطور موثر مسدود کنند.
در نهایت، تجربه این بات نشان میدهد که درک «شکل دیوار» — یادگیری اینکه دیوار کجاe منعطف است و چرا — اولین قدم برای عبور از آن است. دیواری که شناخته شود، نیمی از مسیر تبدیل شدن به یک در است؛ به شرطی که عامل بتواند در نهایت کلید لازم را پیدا کند. این وضعیت یک مسابقهی تسلیحاتی دائمی میان دقت تشخیص بات و قدرت تقلید عاملها ایجاد میکند. در آینده باید منتظر ظهور توکنهای احراز هویت «انسان در حلقه» باشیم که به عاملها اجازه میدهد با مجوز صریح کاربر از این دیوارها عبور کنند.
گام بعدی شما
- اگر توسعهدهنده هستید، روی پیادهسازی توکنهای احراز هویت «انسان در حلقه» (Human-in-the-loop) تمرکز کنید تا عاملهای شما با اجازه کاربر از سد امنیتی بگذرند.
- در طراحی وبسایتها، بهجای تکیه بر کپچاهای سنتی، به سیستمهای امتیازدهی رفتاری (Behavioral Scoring) اعتماد کنید.
- برای تست استقامت مدلهای صوتی خود، از دادههای دارای نویز محیطی (Smeared Audio) استفاده کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.

گفتگو