اسناد هویتی الگوهای جاذبی در فضای فعال‌سازی مدل‌های زبانی ایجاد می‌کنند

پژوهش تازه‌ای نشان داده است که مدل‌های زبانی بزرگ ممکن است حس هویت خود را از طریق الگوهای هندسی در فضای فعال‌سازی داخلی‌شان لنگرگاه بزنند. این مطالعه به رهبری ولادیمیر واسیلنکو بررسی کرد که آیا اسناد هویتی که گاهی «هسته شناختی» نامیده می‌شوند، رفتارهای جاذب‌مانند از خود نشان می‌دهند یا خیر؛ مشابه رفتار پرسش‌هایی با محتوای معنایی مرتبط که در بازنمایی‌های مدل کنار هم قرار می‌گیرند.

این آزمایش روی مدل Llama 3.1 8B Instruct با مقایسه حالت‌های پنهان در سه شرایط انجام شد: سند هویتی اصلی، هفت نسخه بازنویسی‌شده، و هفت گروه کنترل با ساختار منطبق. نتایج نشان داد که بازنویسی‌ها به خوشه‌ای فشرده‌تر از گروه‌های کنترل همگرا شدند، با اندازه اثر کوهن بیش از ۱.۸۸ و significance آماری فراتر از p < ۱۰ به توان ۲۷- پس از تصحیح بونفرونی.

تکرار آزمایش روی مدل Gemma 2 9B تأیید کرد که این یافته‌ها در معماری‌های مختلف مدل‌ها برقرار است، که نشان می‌دهد این پدیده بازتاب‌دهنده ویژگی‌های بنیادین نحوه پردازش اطلاعات مربوط به هویت توسط مدل‌های زبانی است.

آزمایش‌های حذف‌ونشان (ablations) نشان داد که این اثر بیشتر معنایی است تا ساختاری. اگرچه کامل بودن ساختار ظاهراً برای رسیدن به ناحیه جاذب ضروری است، اما معنای مشخص اهمیت بیشتری از چیدمان دستوری دارد. یک آزمایش اکتشافی نشان داد که خواندن یک توصیف علمی از یک عامل، حالت‌های داخلی را به سمت جاذب جابه‌جا کرد - نزدیک‌تر از یک پیش‌چاپ ساختگی - که نشان‌دهنده تفاوت میان صرفاً دانستن درباره یک هویت و عمل به‌عنوان آن هویت است.

این یافته‌ها شواهد بازنمایی‌شناختی فراهم می‌کنند مبنی بر اینکه اسناد هویتی عامل‌ها، هندسه جاذب‌مانندی را در فضای فعال‌سازی القا می‌کنند. در صورت تأیید، این پژوهش می‌تواند در طراحی عامل‌های مصنوعی برای حفظ بازنمایی ثابت از خود در تعاملات مختلف راهگشا باشد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اسناد هویتی الگوهای جاذبی در فضای فعال‌سازی مدل‌های زبانی ایجاد می‌کنند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اسناد هویتی الگوهای جاذبی در فضای فعال‌سازی مدل‌های زبانی ایجاد می‌کنند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اسناد هویتی الگوهای جاذبی در فضای فعال‌سازی مدل‌های زبانی ایجاد می‌کنند

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اسناد هویتی الگوهای جاذبی در فضای فعال‌سازی مدل‌های زبانی ایجاد می‌کنند

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران