عوامل هوش مصنوعی خودمختار به سرعت از ابزارهای آزمایشگاهی به زیرساختهای عملیاتی تبدیل میشوند و پیشبینی میشود تا سال ۲۰۲۶، هشتاد درصد از برنامههای کاربردی سازمانی از دستیارهای هوش مصنوعی استفاده کنند. با توانایی این عوامل در انجام اقدامات واقعی مانند خواندن فایلها، اجرای دستورات، ارسال درخواستهای شبکه و تغییر پایگاههای داده، شکاف امنیتی اساسی پدید آمده است. رویکرد غالب در ایمنی عوامل، متکی بر موانع حفاظتی سطح پرامپت است: دستورالعملهای زبان طبیعی که در همان سطح انتزاعی تهدیدات عمل میکنند. این پژوهش استدلال میکند که ایمنی مبتنی بر پرامپت، از نظر معماری برای عوامل دارای قابلیت اجرا ناکافی است. نویسندگان پارالاکس را معرفی میکنند، الگویی برای اجرای امن هوش مصنوعی خودمختار که بر چهار اصل بنیادین استوار است. نخست، جداسازی شناختی-اجرایی که ساختاری از اجرای مستقیم اقدامات توسط سیستم استدلال جلوگیری میکند. دوم، اعتبارسنجی تخاصمی با قطعیت تدریجی که یک اعتبارسنج مستقل چندلایه را میان استدلال و اجرا قرار میدهد. سوم، کنترل جریان اطلاعات که برچسبهای حساسیت داده را در گردشکار عوامل منتشر میکند تا تهدیدات وابسته به زمینه را شناسایی کند. چهارم، اجرای برگشتپذیر که وضعیت پیش از تخریب را ثبت میکند تا در صورت شکست اعتبارسنجی، امکان بازگشت فراهم شود. پژوهشگران اوپنپارالاکس، پیادهسازی مرجع متنباز در زبان گو، را ارائه و با روش ارزیابی «فرض بر خطر» ارزیابی کردهاند: روشی که سیستم استدلال را کاملاً دور میزند تا مرز معماری را تحت خطر کامل عامل بسنجد. در میان ۲۸۰ مورد آزمایشی تخاصمی در نه دسته حمله، پارالاکس ۹۸.۹ درصد حملات را با صفر مثبت کاذب در پیکربندی پیشفرض و صد درصد را در پیکربندی حداکثر امنیت مسدود کرد. بینش حیاتی این است: وقتی سیستم استدلال به خطر بیفتد، موانع حفاظتی سطح پرامپت هیچ حفاظتی ندارند چون فقط در درون سیستم به خطر افتاده وجود دارند. مرز معماری پارالاکس فارغ از این موضوع پابرجاست و رویکردی بنیادین متفاوت برای امنیت عوامل هوش مصنوعی ارائه میدهد که آنچه یک عامل میاندیشد را از آنچه میتواند انجام دهد جدا میکند.

گفتگو