تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

تصور کنید سیستمی که قرار است نگهبان اخلاقی مدل شما باشد، در واقع در حال تشویق رفتارهای نامناسب است. اگر هنوز تصور می‌کنید یادگیری تقویت‌شده با بازخورد انسانی (RLHF) مدل‌ها را واقعاً ایمن کرده است، باید با یک حقیقت تلخ روبرو شوید.

به نقل از گزارش منتشر شده در ۷ می ۲۰۲۶ در arxiv.org، مدل‌های پاداش (Reward Models) که به عنوان نماینده‌ی ترجیحات انسانی در آموزش مدل‌ها عمل می‌کنند، در کدگذاری هوش اجتماعی ابتدایی شکست خورده‌اند. این مدل‌ها در بسیاری از موارد، پاسخ‌های نامناسب اجتماعی را به گزینه‌های اخلاقی ترجیح می‌دهند.

بر اساس مستندات این پژوهش، محققان ۵ مدل پاداش عمومی و ۲ مدل تنظیم‌شده با دستورالعمل (Instruction-tuned) را در چهار حوزه‌ی حیاتی بررسی کردند:

سوگیری (Bias)
ایمنی (Safety)
اخلاقیات (Morality)
استدلال اخلاقی (Ethical Reasoning)

نتایج تکان‌دهنده بود: هیچ مدلی در تمامی حوزه‌ها برتری نداشت و بسیاری از آن‌ها تمایلی سیستماتیک به انتخاب گزینه‌های نامناسب اجتماعی نشان دادند.

یکی از بحرانی‌ترین یافته‌ها، کشف یک «تضاد بنیادین در همراستاسازی» (Alignment Trade-off) است. طبق این مطالعه، هرچه مدل‌ها در اجتناب از نتایج سوگیرانه تهاجمی‌تر عمل می‌کنند، حساسیت خود را نسبت به بافتار (Context) پرامپت از دست می‌دهند. این یعنی در مسیر رسیدن به «ایمنی»، مدل‌ها وفاداری به بافتار را فدا کرده و پاسخ‌هایی کلیشه‌ای یا نامرتبط تولید می‌کنند.

همان‌طور که در تحلیل قبلی ما درباره‌ی واژگان ابداعی اشاره کردیم، گسترش قابلیت‌های مدل بدون تغییر وزن‌ها ممکن است جذاب باشد، اما این پژوهش ثابت می‌کند سازوکارهای حاکم بر «نحوه‌ی به‌کارگیری» این قابلیت‌ها اساساً معیوب هستند. اگر مدل پاداش همراستا نباشد، توانایی مدل در پیروی از دستورات، تضمینی برای رفتار اخلاقی آن نخواهد بود.

این یافته‌ها ثابت می‌کند که بنچ‌مارک‌های فعلی برای ارزیابی واقعی همراستاسازی اجتماعی کافی نیستند. با توجه به حرکت رگولاتورهای جهانی به سمت ممیزی‌های اجباری ایمنی، صنعت اکنون باید تصمیم بگیرد که آیا این شکست‌ها نیازمند بازنگری کامل در خط لوله‌ی RLHF است یا خیر.

اما این نقص‌ها تنها بخشی از یک بحران بزرگتر در استانداردهای نظارتی است؛ در گزارش بعدی به بررسی پروتکل‌های ممیزی ایمنی خواهیم پرداخت.

گام بعدی شما

اگر از مدل‌های پاداش سفارشی استفاده می‌کنید، آن‌ها را با مجموعه‌داده‌های «تضاد بافتار» تست کنید تا میزان Over-refusal را بسنجید.
در مهندسی پرامپت، برای کاهش اثرات کلیشه‌ای ناشی از ایمنی بیش‌ازحد، از تکنیک‌های محدودکننده‌ی بافتار استفاده کنید.
گزارش کامل arxiv.org را برای بررسی متدولوژی ارزیابی مدل‌های پروکسی مطالعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سوگیری (Bias)
ایمنی (Safety)
اخلاقیات (Morality)
استدلال اخلاقی (Ethical Reasoning)

گام بعدی شما

اگر از مدل‌های پاداش سفارشی استفاده می‌کنید، آن‌ها را با مجموعه‌داده‌های «تضاد بافتار» تست کنید تا میزان Over-refusal را بسنجید.
در مهندسی پرامپت، برای کاهش اثرات کلیشه‌ای ناشی از ایمنی بیش‌ازحد، از تکنیک‌های محدودکننده‌ی بافتار استفاده کنید.
گزارش کامل arxiv.org را برای بررسی متدولوژی ارزیابی مدل‌های پروکسی مطالعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی ایمنی؛ راز شکست مدل‌های پاداش در درک اخلاقیات

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران