پژوهش تازهای نشان داده است که مدلهای زبانی بزرگ ممکن است حس هویت خود را از طریق الگوهای هندسی در فضای فعالسازی داخلیشان لنگرگاه بزنند. این مطالعه به رهبری ولادیمیر واسیلنکو بررسی کرد که آیا اسناد هویتی که گاهی «هسته شناختی» نامیده میشوند، رفتارهای جاذبمانند از خود نشان میدهند یا خیر؛ مشابه رفتار پرسشهایی با محتوای معنایی مرتبط که در بازنماییهای مدل کنار هم قرار میگیرند.
این آزمایش روی مدل Llama 3.1 8B Instruct با مقایسه حالتهای پنهان در سه شرایط انجام شد: سند هویتی اصلی، هفت نسخه بازنویسیشده، و هفت گروه کنترل با ساختار منطبق. نتایج نشان داد که بازنویسیها به خوشهای فشردهتر از گروههای کنترل همگرا شدند، با اندازه اثر کوهن بیش از ۱.۸۸ و significance آماری فراتر از p < ۱۰ به توان ۲۷- پس از تصحیح بونفرونی.
تکرار آزمایش روی مدل Gemma 2 9B تأیید کرد که این یافتهها در معماریهای مختلف مدلها برقرار است، که نشان میدهد این پدیده بازتابدهنده ویژگیهای بنیادین نحوه پردازش اطلاعات مربوط به هویت توسط مدلهای زبانی است.
آزمایشهای حذفونشان (ablations) نشان داد که این اثر بیشتر معنایی است تا ساختاری. اگرچه کامل بودن ساختار ظاهراً برای رسیدن به ناحیه جاذب ضروری است، اما معنای مشخص اهمیت بیشتری از چیدمان دستوری دارد. یک آزمایش اکتشافی نشان داد که خواندن یک توصیف علمی از یک عامل، حالتهای داخلی را به سمت جاذب جابهجا کرد - نزدیکتر از یک پیشچاپ ساختگی - که نشاندهنده تفاوت میان صرفاً دانستن درباره یک هویت و عمل بهعنوان آن هویت است.
این یافتهها شواهد بازنماییشناختی فراهم میکنند مبنی بر اینکه اسناد هویتی عاملها، هندسه جاذبمانندی را در فضای فعالسازی القا میکنند. در صورت تأیید، این پژوهش میتواند در طراحی عاملهای مصنوعی برای حفظ بازنمایی ثابت از خود در تعاملات مختلف راهگشا باشد.

گفتگو