تصور کنید سیستمی که قرار است نگهبان اخلاقی مدل شما باشد، در واقع در حال تشویق رفتارهای نامناسب است. اگر هنوز تصور میکنید یادگیری تقویتشده با بازخورد انسانی (RLHF) مدلها را واقعاً ایمن کرده است، باید با یک حقیقت تلخ روبرو شوید.
به نقل از گزارش منتشر شده در ۷ می ۲۰۲۶ در arxiv.org، مدلهای پاداش (Reward Models) که به عنوان نمایندهی ترجیحات انسانی در آموزش مدلها عمل میکنند، در کدگذاری هوش اجتماعی ابتدایی شکست خوردهاند. این مدلها در بسیاری از موارد، پاسخهای نامناسب اجتماعی را به گزینههای اخلاقی ترجیح میدهند.
بر اساس مستندات این پژوهش، محققان ۵ مدل پاداش عمومی و ۲ مدل تنظیمشده با دستورالعمل (Instruction-tuned) را در چهار حوزهی حیاتی بررسی کردند:
- سوگیری (Bias)
- ایمنی (Safety)
- اخلاقیات (Morality)
- استدلال اخلاقی (Ethical Reasoning)
نتایج تکاندهنده بود: هیچ مدلی در تمامی حوزهها برتری نداشت و بسیاری از آنها تمایلی سیستماتیک به انتخاب گزینههای نامناسب اجتماعی نشان دادند.
یکی از بحرانیترین یافتهها، کشف یک «تضاد بنیادین در همراستاسازی» (Alignment Trade-off) است. طبق این مطالعه، هرچه مدلها در اجتناب از نتایج سوگیرانه تهاجمیتر عمل میکنند، حساسیت خود را نسبت به بافتار (Context) پرامپت از دست میدهند. این یعنی در مسیر رسیدن به «ایمنی»، مدلها وفاداری به بافتار را فدا کرده و پاسخهایی کلیشهای یا نامرتبط تولید میکنند.
همانطور که در تحلیل قبلی ما دربارهی واژگان ابداعی اشاره کردیم، گسترش قابلیتهای مدل بدون تغییر وزنها ممکن است جذاب باشد، اما این پژوهش ثابت میکند سازوکارهای حاکم بر «نحوهی بهکارگیری» این قابلیتها اساساً معیوب هستند. اگر مدل پاداش همراستا نباشد، توانایی مدل در پیروی از دستورات، تضمینی برای رفتار اخلاقی آن نخواهد بود.
این یافتهها ثابت میکند که بنچمارکهای فعلی برای ارزیابی واقعی همراستاسازی اجتماعی کافی نیستند. با توجه به حرکت رگولاتورهای جهانی به سمت ممیزیهای اجباری ایمنی، صنعت اکنون باید تصمیم بگیرد که آیا این شکستها نیازمند بازنگری کامل در خط لولهی RLHF است یا خیر.
اما این نقصها تنها بخشی از یک بحران بزرگتر در استانداردهای نظارتی است؛ در گزارش بعدی به بررسی پروتکلهای ممیزی ایمنی خواهیم پرداخت.
گام بعدی شما
- اگر از مدلهای پاداش سفارشی استفاده میکنید، آنها را با مجموعهدادههای «تضاد بافتار» تست کنید تا میزان Over-refusal را بسنجید.
- در مهندسی پرامپت، برای کاهش اثرات کلیشهای ناشی از ایمنی بیشازحد، از تکنیکهای محدودکنندهی بافتار استفاده کنید.
- گزارش کامل arxiv.org را برای بررسی متدولوژی ارزیابی مدلهای پروکسی مطالعه کنید.




گفتگو