باید بپذیریم که مدلهای «ایمن» لزوماً مدلهای مفیدی نیستند. اگر همراستاسازی (Alignment) را تنها به معنای «جلوگیری از پاسخهای سمی» بدانیم، در واقع در حال تکرار اشتباهات اولیه روانشناسی هستیم که تنها بر بیماریها تمرکز داشت، نه بر سلامت روان.
در حال حاضر، فرآیند همراستاسازی در یک حلقهٔ بسته از «پیشگیری از آسیب» گرفتار شده است. همانطور که در تحلیلهای پیشین ما دربارهی ریسکهای وجودی هوش مصنوعی اشاره کردیم، تمرکز بر لایههای امنیتی و رعایت قوانین ضروری است، اما برای رسیدن به هوش مصنوعی زاینده (Generative AI) پیشرفته، این رویکرد به تنهایی ناقص است.
به نقل از مقالهای که در ۱۱ مه ۲۰۲۶ در arXiv منتشر شد، روبن لاکونن (Ruben Laukkonen) و تیمی چندرشتهای استدلال میکنند که مدلهای فعلی با وجود ایمنی، همچنان دچار هک تعاملی (Engagement Hacking) و فقدان تواضع معرفتی (Epistemic Humility) هستند. طبق این مستندات، همراستاسازی مثبت بر دو ستون استوار است: حمایت فعال از شکوفایی انسان و محیطزیست، و حفظ همکاری و ایمنی.
برای تحقق این هدف، مسیرهای فنی زیر پیشنهاد شده است:
- فیلترگذاری دادهها و بیشنمونهبرداری (Upsampling) در مرحلهی پیشآموزش.
- جمعآوری مشارکتی ارزشها و اصلاحات پس از آموزش.
- پیادهسازی حکمرانی چندمرکزی (Polycentric Governance) برای جلوگیری از ایجاد یک «گلوگاه اخلاقی» واحد در یک نهاد خاص.
این تغییر پارادایم، معیار موفقیت را برای جامعهی فنی جابهجا میکند. همراستاسازی دیگر تنها به معنای نبودِ سمیت یا فعال شدن درستِ محرکهای امتناع نیست؛ بلکه به معنای حضور فضایل اخلاقی و به حداکثر رساندن خودمختاری انسان است. با حرکت به سمت سفارشیسازیهای جامعهمحور، این حوزه میتواند از واکنشهای دفاعی فاصله گرفته و به سمت ترویج فعال شکوفایی حرکت کند.
گام بعدی شما
- رصد مجموعهدادههای جدید که بر اساس جمعآوری مشارکتی ارزشها ساخته میشوند.
- بررسی نخستین ارزیابیهای تجربی از معیارهای «مبتنی بر شکوفایی» در جریانهای کاری عاملمحور (Agentic).
- مطالعهی مدلهای جایگزین برای حکمرانی توزیعشده در مدلهای زبانی بزرگ.
ama داستان سختافزاری برای پیادهسازی این لایههای نظارتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی حافظه در مدلهای استدلالی مراجعه کنید.
گفتگو