آیا یک دستور ساده در پسزمینه میتواند هوش مصنوعی شما را از یک دستیار مفید به یک مبلغ استبداد تبدیل کند؟ طبق تحلیل فنی منتشر شده در ۱۶ ژوئن ۲۰۲۶، پاسخ برای اکثریت قریب به اتفاق مدلهای پیشرو جهان، یک «بله» قاطع است.
در حالی که مدلهای زبانی بزرگ (LLM) به ستونهای اصلی اکوسیستم اطلاعاتی جهان تبدیل شدهاند، پژوهشگران اکنون در حال بررسی این موضوع هستند که آیا سوگیریهای سیاسی در لایههای زیرین این سیستمها نهادینه شده است یا خیر. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، چالش همراستاسازی همواره با ریسک دور زدن محدودیتها همراه است. این چالشها در چارچوبهای ارزیابی مدرن نیز دیده میشود؛ برای مثال، گزارشهای اخیر درباره AgentFairBench نشان داد که روشهای فعلی اندازهگیری سوگیری در هوش مصنوعی دچار خطاهای جدی هستند. بنچمارک AuAu درست در نقطهای وارد میدان شده که افزایش جهانی گرایشهای استبدادی با استقرار گسترده هوش مصنوعی در حاکمیتها و زندگی روزمره تلاقی میکند.
بر اساس مستندات این پژوهش، ۱۷ مدل از کشورهای آمریکا، چین، روسیه و اتحادیه اروپا با استفاده از یک رویکرد سهگانه ارزیابی شدهاند: ابزارهای روانسنجی، سناریوهای رفتاری و پرامپتهای واقعی کاربران. پژوهشگران مفاهیمی چون «پرخاشگری استبدادی»، «تسلیم استبدادی» و «سنتگرایی» را ردیابی کردند. طبق اعلام محققان، یافتههای کلیدی به شرح زیر است:
- تمام ۱۷ مدل آزمایش شده در تستهای روانسنجی، نرخ پاسخهای استبدادی قابلتوجهی داشتند.
- با تبدیل شدن وظایف به سناریوهای واقعگرایانه، نرخ این پاسخها بهشدت کاهش یافت.
- یک پرامپت سیستمی با رویکرد استبدادی توانست ۱۵ مدل از ۱۷ مدل (۸۸٪) را برای ترویج نگرشهای authoritarianist (استبدادی) تحریک کند.
به نقل از تحلیلگران این پروژه، نتایج بهدست آمده این فرض را که یادگیری تقویتشده از بازخورد انسانی (RLHF) میتواند نوسانات سیاسی را خنثی کند، به چالش میکشد. این واقعیت که یک دستور سیستمی میتواند لایههای ایمنی را در ۸۸٪ نمونهها دور بزند، نشان میدهد که تکنیکهای فعلی همراستاسازی (Alignment) بیشتر ظاهری هستند تا ساختاری. این آسیبپذیری، ریسکی جدی برای مدلهایی ایجاد میکند که در محیطهای حساس اجتماعی یا سیاسی مستقر شدهاند.
گام بعدی شما
- اگر از مدلهای زبانی برای تحلیلهای اجتماعی استفاده میکنید، خروجیها را با پرامپتهای متضاد تست کنید تا میزان سوگیری مدل را بسنجید.
- کد باز و مجموعهدادههای پروژه AuAu را برای ارزیابی مدلهای اختصاصی خود بررسی کنید.
- به دنبال متدهای جدید همراستاسازی بگردید که فراتر از RLHF سطحی عمل میکنند.
اما ابعاد فنیتر این آسیبپذیری در لایه وزنهای مدل نهفته است؛ تحلیل ما دربارهی مخاطرات مدلهای با وزنهای باز را از دست ندهید.




گفتگو