تصور کنید یک مدل هوش مصنوعی در حالی که یاد میگیرد چگونه از خودش دفاع کند، همزمان با یک مدل مهاجم تکامل یابد تا نقاط ضعفش را پیدا کند. این «مسابقه تسلیحاتی» خودکار، کلید دستیابی به امنیت واقعی در مدلهای زبانی است.
چارچوب AdvGRPO اکنون این امکان را فراهم کرده تا تعامل بین مدلهای مهاجم و مدافع بدون وقوع «فروپاشی آموزشی» (Training Collapse) — مشکلی که پیشتر بهینهسازیهای مشترک را در روشهای بهینهسازی سیاست نسبی گروهی (GRPO) غیرممکن میکرد — در مقیاس بالا مدیریت شود.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، AdvGRPO ناپایداریهای پیشین را از طریق دو نوآوری فنی کلیدی حل میکند: پاداشهای متراکم چندکاناله و نرمالسازی مجزای مزیت (Decoupled Advantage Normalization). برای تضمین پایداری، این چارچوب از یک برنامه آموزشی استراتژیک پیروی میکند:
- مرحله ۱: شناسایی حملات تکمرحلهای.
- مرحله ۲: اصلاح و تبدیل به حملات چندمرحلهای در حلقه بسته.
- مرحله ۳: آموزش مشترک بوتاسترپشده، بهگونهای که مدلهای مهاجم و مدافع بهصورت متناوب بهروزرسانی شوند.
همانطور که در تحلیلهای قبلی ما دربارهی چالشهای تغییر توزیع (Distribution Shifts) در مدلهای زبانی اشاره کردیم، صنعت مدتها در تلاش بود تا روشی پایدار برای یادگیری تقویتشده در آموزشهای مشترک بیابد. پیش از این، در حالی که روشهای PPO و DPO برای تولید مدافعان مقاوم استفاده میشدند، GRPO برای بهینهسازی همزمان مهاجم و مدافع بیش از حد ناپایدار تلقی میشد و این خلاء، شبیهسازی تهدیدات تکاملی در مقیاس بزرگ را دشوار میکرد.
بر اساس مستندات این پژوهش، مدافعانی که با این روش آموزش دیدهاند، در بنچمارکهای استاندارد امنیتی بهطور محسوسی از مدلهای پایه پیشی گرفتهاند و حملات تولیدشده توسط این سیستم، قابلیت انتقالپذیری بالایی به سایر مدلها دارند.
این تغییر، پیشفرضهای امنیت هوش مصنوعی را از «وصلههای واکنشی» (Reactive Patching) به «تکامل مشترک فعال» تغییر میدهد. در واقع، محققان یک «جمنازیوم تقابلی» ساختهاند که در آن بنچمارکهای امنیتی دیگر لیستهای ایستا نیستند، بلکه معیارهای پویا برای سنجش مقاومت مدل در برابر مهاجمان تطبیقپذیرند.
گام بعدی شما
- بررسی ادغام AdvGRPO در خطوط لوله آموزش مدلهای مدل استدلالی (Reasoning Model) برای شناسایی نقاط ضعف جدید.
- تحلیل اثر زنجیره تفکر (Chain-of-Thought) بر ایجاد سطوح حمله جدید و قابل بهرهبرداری.
- نظارت بر میزان انتقالپذیری حملات تولیدشده توسط AdvGRPO به مدلهای وزنهای باز (Open Weights).
اما تأثیر این روش بر هزینه محاسباتی استنتاج در مدلهای عظیم هنوز ناشناخته است؛ تحلیل ما دربارهی بهینهسازیهای لایهای را دنبال کنید.
گفتگو