مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

باید بدانید که برای دستیابی به یک رفتار اخلاقی جامع در مدل‌های زبانی، نیازی به مجموعه‌داده‌های عظیم و فراگیر نیست. تصور کنید با آموزش مدل در یک حوزه‌ی بسیار کوچک، کل سیستم اخلاقی آن به‌طور خودکار بازتنظیم شود.

این پدیده که همراستاسازی نوظهور (Emergent Alignment) نامیده می‌شود، نشان می‌دهد که اجبار مدل به رعایت یک قانون ایمنی خاص در یک بخش، می‌تواند یک پرسونای اخلاقی سازگار را در تمام وظایف غیرمرتبط بازتاب دهد. این کشف در واقع نقطه‌ی مقابل «ناهمراستاسازی نوظهور» است که در آن تنظیم دقیق روی یک موضوع خاص، باعث تخریب توانمندی‌های کلی مدل می‌شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های همراستاسازی (Alignment) مدل‌های زبانی اشاره کردیم، بحث بر سر این بود که آیا مدل‌ها واقعاً ارزش‌ها را می‌آموزند یا صرفاً الگوها را تقلید می‌کنند. این پژوهش که در ۹ ژوئن ۲۰۲۶ منتشر شد، مدل انتخاب پرسونا (Persona Selection Model یا PSM) را تأیید می‌کند؛ این مدل فرض می‌کند که مدل‌های زبانی بزرگ (LLM) در مرحله‌ی پیش‌آموزش، شبیه‌سازی شخصیت‌ها و دیدگاه‌های متنوعی را می‌آموزند و مراحل پس‌آموزش صرفاً این پرسوناهای نهفته را فراخوانی و صیقل می‌دهند.

طبق اعلام پژوهشگران، برای آزمون این فرضیه از رویکرد هوش مصنوعی قانون‌مند (Constitutional AI) استفاده شد و مدل‌ها بر اساس چهار چارچوب اخلاقی متمایز آموزش دیدند: وظیفه گرایی (Deontology)، پیامدگرایی (Consequentialism)، اخلاق فضیلت (Virtue Ethics) و اقتدار انسانی پایین‌رده. یافته‌های کلیدی عبارتند از:

تنظیم دقیق روی دو زیرمجموعه‌ی محدود ایمنی، به‌طور قابل‌اعتمادی منجر به همراستاسازی در دسته‌های کلی ایمنی شد.
همراستاسازی حتی در دسته‌هایی که به‌طور صریح از مجموعه‌داده‌های آموزشی حذف شده بودند، تداوم یافت.
مدل‌ها «پروفایل‌های امضایی» خاصی نشان دادند؛ برای مثال، مدل‌های آموزش‌دیده با رویکرد پیامدگرایی، توافق بسیار بیشتری با باورهای سودگرایانه داشتند.

بر اساس مستندات این تحقیق، تمرکز فنی اکنون باید از اندازه‌گیری ساده‌ی عملکرد ایمنی به ارزیابی «قابلیت تصویرسازی» (Projectability) تغییر کند. این بدان معناست که موفقیت یک استراتژی همراستاسازی نباید تنها با دقت در داده‌های آموزشی سنجیده شود، بلکه باید بررسی کرد که مدل تا چه حد می‌تواند پرسونای اخلاقی موردنظر را در سناریوهای متنوع و خارج از توزیع (Out-of-distribution) بازتاب دهد.

گام بعدی شما

بررسی کنید که آیا لایه‌های ایمنی محدود در مدل‌های شما به‌طور ناخواسته پرسوناهای اخلاقی متضادی را فعال می‌کنند یا خیر.
برای ارزیابی مدل‌های خود، به جای بنچمارک‌های دقت، از معیارهای «قابلیت تصویرسازی» استفاده کنید.
پایش کنید که آیا معیارهای جدید Projectability در بنچمارک‌های ایمنی آینده جایگزین روش‌های فعلی می‌شوند یا خیر.

اما این موضوع پرسشی مهم‌تر را ایجاد می‌کند: آیا داده‌های مصنوعی می‌توانند این پرسوناها را سریع‌تر فعال کنند؟ به تحلیل ما درباره‌ی تأثیر داده‌های سنتتیک در همراستاسازی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تنظیم دقیق روی دو زیرمجموعه‌ی محدود ایمنی، به‌طور قابل‌اعتمادی منجر به همراستاسازی در دسته‌های کلی ایمنی شد.
همراستاسازی حتی در دسته‌هایی که به‌طور صریح از مجموعه‌داده‌های آموزشی حذف شده بودند، تداوم یافت.
مدل‌ها «پروفایل‌های امضایی» خاصی نشان دادند؛ برای مثال، مدل‌های آموزش‌دیده با رویکرد پیامدگرایی، توافق بسیار بیشتری با باورهای سودگرایانه داشتند.

گام بعدی شما

بررسی کنید که آیا لایه‌های ایمنی محدود در مدل‌های شما به‌طور ناخواسته پرسوناهای اخلاقی متضادی را فعال می‌کنند یا خیر.
برای ارزیابی مدل‌های خود، به جای بنچمارک‌های دقت، از معیارهای «قابلیت تصویرسازی» استفاده کنید.
پایش کنید که آیا معیارهای جدید Projectability در بنچمارک‌های ایمنی آینده جایگزین روش‌های فعلی می‌شوند یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران