باید بدانید که برای دستیابی به یک رفتار اخلاقی جامع در مدلهای زبانی، نیازی به مجموعهدادههای عظیم و فراگیر نیست. تصور کنید با آموزش مدل در یک حوزهی بسیار کوچک، کل سیستم اخلاقی آن بهطور خودکار بازتنظیم شود.
این پدیده که همراستاسازی نوظهور (Emergent Alignment) نامیده میشود، نشان میدهد که اجبار مدل به رعایت یک قانون ایمنی خاص در یک بخش، میتواند یک پرسونای اخلاقی سازگار را در تمام وظایف غیرمرتبط بازتاب دهد. این کشف در واقع نقطهی مقابل «ناهمراستاسازی نوظهور» است که در آن تنظیم دقیق روی یک موضوع خاص، باعث تخریب توانمندیهای کلی مدل میشود.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای همراستاسازی (Alignment) مدلهای زبانی اشاره کردیم، بحث بر سر این بود که آیا مدلها واقعاً ارزشها را میآموزند یا صرفاً الگوها را تقلید میکنند. این پژوهش که در ۹ ژوئن ۲۰۲۶ منتشر شد، مدل انتخاب پرسونا (Persona Selection Model یا PSM) را تأیید میکند؛ این مدل فرض میکند که مدلهای زبانی بزرگ (LLM) در مرحلهی پیشآموزش، شبیهسازی شخصیتها و دیدگاههای متنوعی را میآموزند و مراحل پسآموزش صرفاً این پرسوناهای نهفته را فراخوانی و صیقل میدهند.
طبق اعلام پژوهشگران، برای آزمون این فرضیه از رویکرد هوش مصنوعی قانونمند (Constitutional AI) استفاده شد و مدلها بر اساس چهار چارچوب اخلاقی متمایز آموزش دیدند: وظیفه گرایی (Deontology)، پیامدگرایی (Consequentialism)، اخلاق فضیلت (Virtue Ethics) و اقتدار انسانی پایینرده. یافتههای کلیدی عبارتند از:
- تنظیم دقیق روی دو زیرمجموعهی محدود ایمنی، بهطور قابلاعتمادی منجر به همراستاسازی در دستههای کلی ایمنی شد.
- همراستاسازی حتی در دستههایی که بهطور صریح از مجموعهدادههای آموزشی حذف شده بودند، تداوم یافت.
- مدلها «پروفایلهای امضایی» خاصی نشان دادند؛ برای مثال، مدلهای آموزشدیده با رویکرد پیامدگرایی، توافق بسیار بیشتری با باورهای سودگرایانه داشتند.
بر اساس مستندات این تحقیق، تمرکز فنی اکنون باید از اندازهگیری سادهی عملکرد ایمنی به ارزیابی «قابلیت تصویرسازی» (Projectability) تغییر کند. این بدان معناست که موفقیت یک استراتژی همراستاسازی نباید تنها با دقت در دادههای آموزشی سنجیده شود، بلکه باید بررسی کرد که مدل تا چه حد میتواند پرسونای اخلاقی موردنظر را در سناریوهای متنوع و خارج از توزیع (Out-of-distribution) بازتاب دهد.
گام بعدی شما
- بررسی کنید که آیا لایههای ایمنی محدود در مدلهای شما بهطور ناخواسته پرسوناهای اخلاقی متضادی را فعال میکنند یا خیر.
- برای ارزیابی مدلهای خود، به جای بنچمارکهای دقت، از معیارهای «قابلیت تصویرسازی» استفاده کنید.
- پایش کنید که آیا معیارهای جدید Projectability در بنچمارکهای ایمنی آینده جایگزین روشهای فعلی میشوند یا خیر.
اما این موضوع پرسشی مهمتر را ایجاد میکند: آیا دادههای مصنوعی میتوانند این پرسوناها را سریعتر فعال کنند؟ به تحلیل ما دربارهی تأثیر دادههای سنتتیک در همراستاسازی مراجعه کنید.
گفتگو