اگر تصور میکنید هدایت یک مدل زبانی بزرگ (Large Language Model - LLM) از طریق بردارهای خطی ثابت امکانپذیر است، در واقع در حال تعقیب یک شبح هستید. باور عمومی در جامعهی یادگیری ماشین بر این بود که هر قابلیت یا تکلیف خاص، در فضای وزنهای مدل، یک جهت خطی ثابت و قابل شناسایی دارد؛ اما واقعیت بسیار متلاطمتر است.
بر اساس مطالعهای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، ساختارهای خطیِ مربوط به گرادیانِ تکالیف در مدلهای زبانی، هندسههای محلی در حال تکاملی هستند که حتی در بازهی کوتاهی نظیر ۱۰۰ گام، بهطور قابلتوجهی تغییر میکنند. همانطور که در تحلیلهای پیشین ما دربارهی تفسیرپذیری مکانیکی (Mechanistic Interpretability) اشاره کردیم، درک نحوه ذخیرهسازی مفاهیم در لایههای مدل، کلید دستیابی به کنترل کامل بر خروجیهاست.
این پژوهش که روی مدلهای DistilGPT-2، GPT-2 و Qwen-0.5B انجام شده، نتایج زیر را به دست آورد:
• شناسایی یک «پایهٔ پیشوند-مسیر» (Trajectory-prefix basis) که در آن، نخستین بهروزرسانیهای بازیابی، ۷۷٪ از جابهجایی بازیابی LoRA را پوشش میدهند.
• مشاهدهی شباهت کسینوسی ۰.۵۸ میان تغییر فعالسازیِ یک گامِ واحدِ گرادیان و بردار هدایت CAA برچسبدار.
طبق گزارش پژوهشگران، این یافتهها نشان میدهد که موفقیت روشهایی نظیر LoRA یا هدایت فعالسازها (Activation Steering)، نه به دلیل وجود یک صفحهٔ جهانی برای هر تکلیف، بلکه نتیجهی بهرهگیری از هندسه محلی است. در واقع، موفقیت جستوجوی تصادفی پارامترها در ابعاد بالا، بیشتر با «قضیه محلی-خطی گاوسی» توجیه میشود تا وجود یک مختصات ثابت روی نقشه.
این کشف، پیشفرضهای بنیادی دربارهی تفسیرپذیری مدلها را تغییر میدهد: ساختارهای خطی دیگر مختصاتی روی یک نقشه نیستند، بلکه شبیه به جریانهای متحرک در یک رودخانهاند.
گام بعدی شما
- بررسی جایگزینی بردارهای هدایت استاتیک با مبناهای دینامیک و متغیر برای افزایش دقت در هدایت بلندمدت مدلها.
- تحلیل اثر رانش هندسی بر پایداری مدلهایی که با روشهای Low-Rank Adaptation آموزش دیدهاند.
- رصد پژوهشهای آتی برای پیشبینی این هندسههای تکاملی بهمنظور اتوماسیون ساخت آداپتورهای بهینهتر.
اما اثر این رانش بر حافظهی بلندمدت مدلها حتی پیچیدهتر است — به بررسی ما دربارهی معماریهای جدید بازیابی داده مراجعه کنید.



گفتگو