اگر تصور میکنید درک سازوکارهای درونی یک مدل زبانی لزوماً نیازمند هفتهها آموزش اتوانکودرهای پراکنده (Sparse Autoencoders) است، باید بدانید که این فرض بنیادین بهشدت به چالش کشیده شده است. یک رویکرد جدید ثابت میکند که ساختارهای تفسیری مدلها، پیش از آنکه بخواهیم آنها را «آموزش» دهیم، در هندسهی فعالسازهای مدل نهفتهاند.
در حال حاضر، SAEها ابزار استاندارد برای یافتن مسیرهای تفسیری در مدلها هستند، اما نیاز به ذخیرهسازی حجیم و ارزیابی لایهبهلایه، گلوگاهی جدی برای پژوهشگران ایجاد کرده است. همانطور که در تحلیلهای پیشین ما دربارهی بازرسی مدلهای بازمتن اشاره کردیم، هزینهی محاسباتی برای «دیدن» درون مدلها، مانعی برای تحلیل سریع رفتار مدلها بود.
به نقل از گزارش منتشر شده در arXiv در ۱۱ ژوئن ۲۰۲۶، گردشکار ICALens با بازنگری در تحلیل مؤلفههای مستقل (Independent Component Analysis یا ICA) — روشی کلاسیک برای یافتن مسیرهای غیرگوسی — این بنبست را میشکند. این ابزار یک خط لولهی FastICA بهینهشده برای پردازشهای موازی در GPU را با دستورالعملهای پایداری مخصوص فعالسازهای مدل زبانی بزرگ (LLM) ترکیب میکند.
پژوهشگران این روش را روی سه مدل GPT-2 Small، Gemma 2 2B و Qwen 3.5 2B Base آزمایش کردند. نتایج در بنچمارک SAEBench نشان داد که:
- ICA در زمینه «کاوش پراکنده» (Sparse Probing) با SAEهای عمومی رقابت میکند.
- در سناریوهای با بودجه محاسباتی کوچک تا متوسط، ICA در «تغییرات هدفمند کاوشگر» (Targeted Probe Perturbation) عملکرد بهتری نسبت به SAEها دارد.
این یافتهها فرضیه رایج در میدان پژوهش را تغییر میدهند: ما دیگر مجبور نیستیم برای مشاهدهی درون یک مدل، لایههای جدیدی از دیکشنریهای عصبی را آموزش دهیم. در واقع ICALens، تحلیل ICA را از یک خطکشی ضعیف (Baseline) به یک ابزار اولیه و قدرتمند برای ممیزی بازنماییهای مدل تبدیل کرده است.
گام بعدی شما
- بررسی کتابخانههای متنباز تفسیری (Interpretability libraries) برای ادغام ابزارهای مبتنی بر ICA.
- مقایسهی هزینهی استنتاج در تحلیلهای لایهبهلایه با استفاده از ICALens در مقابل SAE.
- رصد نتایج اجرای این روش روی مدلهای پیشرو (Frontier Models) با مقیاس صدها میلیارد پارامتر.
اما آیا این کارایی در مدلهای غولآسای ترلیونی-پارامتر نیز حفظ میشود یا دوباره به دیوارهی محاسباتی برخورد میکنیم؟ تحلیل ما از مقیاسپذیری ابزارهای ممیزی را دنبال کنید.



گفتگو