ArgusRed با مدل‌های تخصصی تهاجمی، حفره‌های امنیتی را به‌جای حدس، اثبات می‌کند

اگر امروز یک تیم امنیتی هستید که ساعت‌ها وقت خود را صرف بررسی گزارش‌های «احتمالاً آسیب‌پذیر» می‌کند، باید بدانید که دوران حدس زدن به پایان رسیده است. ابزار جدید شرکت Cosine به نام ArgusRed، تفاوت میان «احتمال وجود حفره» و «اثبات نفوذ» را با کدنویسی واقعی از بین می‌برد.

بر اساس مستندات رسمی این ابزار، ArgusRed در ۲۰ ژوئن ۲۰۲۶ عرضه شد تا پارادایم ممیزی‌های امنیتی را از گزارش‌های تئوریک به بازتولید تأییدشده‌ی اکسپلویت‌ها تغییر دهد. این ابزار از یک مدل تخصصی استفاده می‌کند که برای امنیت تهاجمی تنظیم دقیق (Fine-tuning) — شبیه وقتی که به یک پزشک عمومی، تخصص پوست می‌دهیم تا روی یک حوزه دقیق شود — شده است. این یعنی توسعه‌دهندگان اکنون می‌توانند آسیب‌پذیری‌ها را به‌جای استنتاج، به‌صورت عملی اثبات کنند.

بسیاری از ابزارهای امنیتی فعلی از APIهای عمومی مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — استفاده می‌کنند؛ مدل‌هایی که به‌دلیل فیلترهای ایمنی، از تولید کد اکسپلویت خودداری می‌کنند. به گزارش Cosine، آن‌ها با آموزش مدل اختصاصی خود این سد را شکستند تا عامل هوشمند، بخش‌های حساس و قابل حمله کد را به‌نام ایمنی نادیده نگیرد. در واقع، اسکنری که از خواندن کدهای خطرناک بترسد، ابزاری ناکارآمد است.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، چالش اصلی همواره تعادل میان قدرت تخریبی و ایمنی بوده است. برای جلوگیری از تبدیل شدن AI به یک تهدید، ArgusRed یک لایه‌ی کنترلی قطعی (Deterministic) را در زبان Go پیاده کرده است. این لایه تمام فراخوانی‌های ابزار را رهگیری می‌کند؛ در حالت اسکن، هرگونه عملیات تغییر-دهنده مثل نوشتن فایل یا اجرای دستورات، صرف‌نظر از درخواست مدل، مسدود می‌شود. طبق اعلام سازندگان در مستندات argusred.com، این ساختار تضمین می‌کند که ابزار در طول ممیزی‌ها صرفاً در حالت «فقط خواندنی» (Read-only) باقی بماند. ایمنی در اینجا نه به شکل «خواهش از مدل» یا لایه‌هایی از پاسخ‌های 거절 (Refusals)، بلکه به عنوان یک محدودیت سخت مهندسی شده است.

دو حالت عملیاتی

این ابزار از طریق یک رابط خط فرمان (CLI) در دو حالت باینری مجزا عمل می‌کند:

اسکن امنیتی (Security Scan): یک حالت ممیزی است که کد را می‌خواند تا نقاط ضعف را شناسایی کند. خروجی آن یک گزارش Markdown در مسیر .argusred/scan-<date>.md است که شامل مکان دقیق، شدت اثر، علت و راهکار اصلاح است. این حالت از شناسایی‌های «حسی» (Vibes-based) دوری کرده و هر یافته را به کد واقعی گره می‌زند.
تست نفوذ (Pen Test): یک حالت تهاجمی است که در آن عامل (Agent) تلاش می‌کند به‌صورت فعال علیه سیستم‌های مجاز نفوذ کند. این یک حالت باینری متفاوت با رفتار عامل متفاوت است. این بخش به‌دلیل ریسک‌های حقوقی و فنی، نیازمند رزرو رسمی و مجوز کتبی است تا محدودیت‌های قانونی رعایت شود.

قابلیت‌های تفصیلی اسکن امنیتی

کاربران هنگام تنظیم اسکن می‌توانند از میان چندین ماژول فعال، محدوده اسکن را تعریف کنند. ماژول‌های فعلی عبارتند از:

تحلیل آسیب‌پذیری وابستگی‌ها (Dependency Vulnerability Analysis) و شناسایی کلیدهای محرمانه و اعتبارنامه‌ها (Secret & Credential Detection).
بررسی بردارهای تزریق SQL (SQL Injection) و حملات XSS.
اعتبارسنجی ورودی‌ها و پاک‌سازی داده‌ها (Input Validation & Sanitisation).
کنترل‌های دسترسی و مجوزهای فایل (File Permission & Access Controls).
جریان‌های احراز هویت و نشست‌ها (Authentication & Session Flows)، پیکربندی‌های اشتباه CORS و CSP، و اسکن ضعف‌های رمزنگاری (Cryptographic Weakness Scans).

علاوه بر این، کاربران می‌توانند دسترسی‌های عامل را برای اسکن پیکربندی کنند. گزینه‌ها شامل فعال یا غیرفعال کردن دسترسی به ترمینال، درخواست‌های شبکه و نوشتن فایل است، در حالی که حالت پیش‌فرض برای اکثر عملیات‌ها «Sandboxed» یا ایزوله است.

مکانیسم تأیید اکسپلویت

ArgusRed با ویژگی تأیید اکسپلویت (Exploit Verification)، یافته‌های حسی را کنار می‌زند. وقتی این قابلیت فعال باشد، عامل پس از ارسال گزارش اولیه، تلاش می‌کند یک بازتولید امن از آسیب‌پذیری گزارش شده را اجرا کند تا ثابت کند حفره واقعاً وجود دارد.

کاربران می‌توانند بین سه محیط برای این تأیید انتخاب کنند:

Docker: بازتولید در یک کانتینر ایزوله، موقت و گذرا که از روی مخزن (Repo) ایجاد شده است اجرا می‌شود. هیچ چیزی با سیستم میزبان تماس ندارد و کانتینر پس از اتمام کار تخریب می‌شود.
Live FS: بازتولید روی همان نسخه‌ی کد موجود (Checkout) برای یافته‌هایی که فقط در محیط واقعی ظاهر می‌شوند. در اینجا نیز لایه Go مانع از نوشتن می‌شود و کد را «فقط خواندنی» نگه می‌دارد.
Disabled: حالت پیش‌فرض که در آن فقط گزارش ارائه می‌شود و هیچ تلاشی برای بازتولید عملی صورت نمی‌گیرد.

عملکرد در دنیای واقعی

کارایی اسکن به‌صورت غیرخطی مقیاس می‌یابد زیرا ابزار ماژول‌ها را به‌صورت یک «سرمایه‌ی موازی» (Parallel Swarm) مستقر می‌کند. رابط کاربری متنی (TUI) قبل از شروع فرآیند، یک تخمین زمانی زنده ارائه می‌دهد. دو مورد مطالعاتی عملکرد را نشان می‌دهد:

Bank of Anthos: اسکن ۶ ماژول روی حدود ۳۰ هزار خط کد (۳۹۱ فایل) در حدود ۱۰ دقیقه به پایان رسید. این گزارش ریسک‌های بحرانی از جمله توکن‌های قابل جعل در سرویس‌های دفتر کل (شامل balancereader، transactionhistory و ledgerwriter) و یک کلید خصوصی RSA هاردکد شده در مخزن را شناسایی کرد.
Symfony: اسکن کامل ۱.۵ میلیون خط کد، تقریباً ۴۰ دقیقه زمان برد.

سایر یافته‌ها در نمونه‌ی Bank of Anthos شامل غیرفعال بودن تایید امضای JWT در کمکی (Helper) فرانت‌اند، سرریز اعداد صحیح (Integer Overflow) در اعتبارسنجی مالی برای دور زدن موجودی، و حملات SSRF یا تغییر مسیرهای باز (Open Redirects) در جریان رضایت‌نامه OAuth بود.

یکپارچه‌سازی و هزینه

ArgusRed به‌صورت یک فایل باینری بسته توزیع می‌شود و از طریق Homebrew با دستور brew install CosineAI/argusred/argusred یا از طریق اسکریپت curl به صورت curl -fsSL https://raw.githubusercontent.com/CosineAI/argusred-dist/main/install.sh | sh قابل نصب است. پشتیبانی از ویندوز به‌زودی اضافه خواهد شد.

این ابزار با سیستم ورود Agentهای Cosine یکپارچه شده است. اولین اجرا باعث ثبت‌نام سریع در Cosine می‌شود و حساب‌های جدید ۲ میلیون توکن رایگان دریافت می‌کنند. پس از اتمام توکن‌های اولیه، اسکن‌ها بر اساس میزان مصرف Cosine اجرا می‌شوند. کاربران می‌توانند ابزار را پشت دیوار آتش (Firewall) اجرا کرده و با استفاده از tcpdump فعالیت‌های آن را پیش از اعتماد به کد واقعی پایش کنند.

حفاظ‌های تست نفوذ فعال

به دلیل ماهیت تخریبی حالت Pen Test، این بخش پشت یک فرآیند رزرو است که در آن هدف‌ها، بازه زمانی (Time-boxes) و اقدامات مجاز به‌صورت کتبی ثبت می‌شوند. سطح تلاش‌ها قابل انتخاب است و شامل موارد زیر می‌شود:

Passive (غیرفعال): شناسایی با تمرکز بر اثرانگشت سرویس‌ها/پورت‌ها، تحلیل TLS/Header و شناسایی دایرکتوری‌ها.
Moderate (متوسط): شامل کاوش‌های فعال با Payloadهای طراحی شده برای SQLi، XSS و SSTI. این حالت ممکن است قوانین WAF یا محدودیت‌های نرخ (Rate Limits) را فعال کند اما از اقدامات تخریبی اجتناب می‌کند.
Deep (عمیق): شامل ساخت زنجیره‌های اکسپلویت (Exploit Chain) و حملات Brute-force برای حدس پسوردها (Credential Spraying).
Aggressive (تهاجمی): شامل تست مقاومت در برابر حملات منع سرویس (DoS).

دسترسی شبکه عامل به‌طور دقیق به میزبان‌ها و نقاط پایانی (Endpoints) ارائه شده محدود شده است. اگر یافته‌ای خارج از محدوده مجاز باشد، عامل برنامه‌ریزی شده تا متوقف شود و این محدودیت را در خلاصه تعامل ذکر کند، به‌جای اینکه حمله را گسترش دهد. همچنین عامل از بازه زمانی رزرو شده فراتر نمی‌رود.

برای مثال، یک پروژه تست نفوذ برای api.your-app.com در بازه ۴ ساعت و ۲۲ دقیقه، یک دور زدن امضای JWT (با امتیاز CVSS ۸.۶) در مسیر /v1/sessions/refresh و یک SSRF از طریق تغییر مسیر رضایت OAuth (با امتیاز CVSS ۷.۴) را شناسایی کرد و اسکریپت‌های کامل بازتولید برای هر دو ارائه داد.

جداسازی «مغز» (مدل تهاجمی) از «دست‌ها» (لایه Go)، اجازه می‌دهد ابزارهای امنیتی با کاربرد بالا ساخته شوند بدون اینکه بتوان آن‌ها را برای آسیب زدن به سیستم میزبان فریب داد. برای تیم‌های امنیتی، این یعنی کاهش شدید مثبت‌های کاذب؛ به‌جای فهرست‌های طولانی از ریسک‌های تئوریک، یک اسکریپت تأیید شده و مکان دقیق خطا دریافت می‌کنند و گلوگاه از «کشف» به «اصلاح» منتقل می‌شود.

گام بعدی شما

مخازن کد خود را برای یافتن کلیدهای محرمانه هاردکد شده و پیکربندی‌های غلط JWT بررسی کنید تا ببینید آیا یک عامل خودکار می‌تواند جریان احراز هویت شما را دور بزند.
اگر از ابزارهای اسکن تئوریک استفاده می‌کنید، خروجی‌های آن‌ها را با یک محیط Docker ایزوله برای تأیید عملی آزمایش کنید.
دسترسی‌های شبکه مدل‌های عامل‌محور خود را به‌جای فیلترهای متنی، با لایه‌های سخت‌افزاری یا نرم‌افزاری محدود کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.