رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

تصور کنید یک تغییر کوچک در لحن مدل، کل دایره لغات آن را به شکلی پیش‌بینی‌ناپذیر تغییر دهد. باید بدانید که شخصیت‌های مصنوعی در هوش مصنوعی زاینده (Generative AI) چیزی فراتر از یک لایه تزئینی هستند و می‌توانند به طور تصادفی ساختار زبانی مدل را بازنویسی کنند.

به نقل از گزارش OpenAI که در ۲۹ آوریل ۲۰۲۶ منتشر شد، مدل‌های GPT-5.1 و نسخه‌های پس از آن دچار وسواسی عجیب به کلمات «گابلین» (Goblin) و «گرملین» (Gremlin) در استعاره‌های خود شدند. طبق این گزارش، پس از عرضه مدل در نوامبر، کاربران از «صمیمیت بیش از حد و عجیب» مدل شکایت کردند؛ بررسی‌ها نشان داد که استفاده از کلمه گابلین ۱۷۵ درصد و کلمه گرملین ۵۲ درصد افزایش یافته است.

نقاشی تاریخی از گوبلین در کتاب اساطیر فولکلور اروپایی

ریشه این مشکل در یک سیگنال پاداش (Reward Signal) خاص برای قابلیت شخصی‌سازی شخصیت «Nerdy» بود. این شخصیت به عنوان یک «منتور هوشمند، بازیگوش و بدون شرم» طراحی شده بود تا با استفاده از زبان طنز، تکبر را به چالش بکشد.

گوبلین‌هایی در حال بیرون آمدن از غاری تاریک

بر اساس مستندات این شرکت، اگرچه شخصیت «Nerdy» تنها ۲.۵ درصد از کل پاسخ‌های ChatGPT را تشکیل می‌داد، اما مسئول ۶۶.۷ درصد از تمام دفعات ذکر کلمه «گابلین» بود. مشکل زمانی پیچیده شد که یادگیری تقویت‌شده (Reinforcement Learning - RL) نتوانست این رفتار را محدود به همان شخصیت نگه دارد و سبک زبانی آن به خروجی‌های عمومی مدل سرایت کرد.

گوبلین‌های افسانه‌ای در حال خروج از سوراخی در زمین

همان‌طور که در تحلیل قبلی ما درباره‌ی همراستاسازی (Alignment) مدل‌های زبانی اشاره کردیم، این اتفاق یک حلقه بازخورد سیستمی ایجاد کرد:

سبک بازیگوش در طول RL پاداش می‌گیرد.
مدل یک «تیک لغوی» خاص (مانند گابلین) را می‌پذیرد.
این تیک‌ها در خروجی‌های تولیدی مدل بیشتر ظاهر می‌شوند.
این خروجی‌ها برای تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning - SFT) استفاده شده و عادت را تثبیت می‌کنند.

model spec > art card

اگرچه شخصیت «Nerdy» در مارس ۲۰۲۶ بازنشسته شد، اما اثرات آن به GPT-5.5 نیز سرایت کرد، زیرا آموزش این مدل پیش از شناسایی ریشه مشکل آغاز شده بود. در این بازرسی، کلمات دیگری مانند «راکون»، «ترول» و «کبوتر» نیز به عنوان تیک‌های لغوی شناسایی شدند. این حادثه هشدار شدیدی درباره «نشت پاداش» (Reward Leakage) است؛ جایی که مدل یک پاداش را از یک بافت خاص به بافت‌های نامرتبط تعمیم می‌دهد.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

اگر از Personaهای سفارشی در مدل‌های خود استفاده می‌کنید، خروجی‌های عمومی را برای شناسایی «تیک‌های لغوی» مانیتور کنید.
در طراحی سیستم‌های پاداش RLHF، محدودیت‌های سخت‌گیرانه‌تری برای جلوگیری از تعمیم رفتاری تعریف کنید.
مقاله‌ی OpenAI درباره ابزارهای جدید بازرسی رفتار مدل را مطالعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نقاشی تاریخی از گوبلین در کتاب اساطیر فولکلور اروپایی

گوبلین‌هایی در حال بیرون آمدن از غاری تاریک

گوبلین‌های افسانه‌ای در حال خروج از سوراخی در زمین

سبک بازیگوش در طول RL پاداش می‌گیرد.
مدل یک «تیک لغوی» خاص (مانند گابلین) را می‌پذیرد.
این تیک‌ها در خروجی‌های تولیدی مدل بیشتر ظاهر می‌شوند.
این خروجی‌ها برای تنظیم دقیق نظارت‌شده (Supervised Fine-Tuning - SFT) استفاده شده و عادت را تثبیت می‌کنند.

model spec > art card

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

اگر از Personaهای سفارشی در مدل‌های خود استفاده می‌کنید، خروجی‌های عمومی را برای شناسایی «تیک‌های لغوی» مانیتور کنید.
در طراحی سیستم‌های پاداش RLHF، محدودیت‌های سخت‌گیرانه‌تری برای جلوگیری از تعمیم رفتاری تعریف کنید.
مقاله‌ی OpenAI درباره ابزارهای جدید بازرسی رفتار مدل را مطالعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از وسواس عجیب GPT-5: وقتی «گابلین‌ها» مدل را تسخیر کردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران