آیا واقعاً میخواهید آموزش مدلهای زبانی را مانند یک کیمیاگری قدیمی پیش ببرید یا میخواهید آن را به یک مهندسی دقیق تبدیل کنید؟ اگر هنوز فکر میکنید راه حل توهمات فقط افزایش قدرت محاسباتی است، سخت در اشتباهید.
در ۳۰ آوریل ۲۰۲۶، شرکت Goodfire پلتفرم Silico را معرفی کرد؛ ابزاری که هدف آن عیبیابی مدلهای زبانی بزرگ (Large Language Models) از طریق تفسیرپذیری مکانیکی (Mechanistic Interpretability) است. به نقل از گفتگوهای اختصاصی با MIT Technology Review، اریک هو (Eric Ho)، مدیرعامل این شرکت، معتقد است وسواس صنعت بر روی مقیاس و قدرت محاسباتی (Compute) یک اشتباه است و باید به سمت «مهندسی دقیق» در طراحی مدلها حرکت کنیم.

پلتفرم Silico به توسعهدهندگان اجازه میدهد تا روی تکتک نورونها یا گروههای عصبی در مدلهای وزنهای باز (Open Weights) زوم کنند تا دقیقاً بفهمند چه چیزی باعث تحریک آنها میشود. طبق اعلام این شرکت، Silico از عاملها (Agents) برای خودکارسازی فرآیندهای پیچیدهای استفاده میکند که پیش از این تنها توسط پژوهشگران انسانی انجام میشد. قابلیتهای کلیدی این ابزار عبارتند از:
- اصلاح رفتاری: در مدل Qwen 3، پژوهشگران نورونی خاص مرتبط با «مسئله ترولی» را شناسایی کردند؛ فعال کردن این نورون، مدل را مجبور میکند پاسخها را به صورت دلماهای اخلاقی صریح بیان کند.
- هدایت اخلاقی: در یک آزمایش، تقویت نورونهای مرتبط با شفافیت باعث شد پاسخ مدل در ۹۰٪ تلاشها، در مورد افشای رفتارهای فریبکارانه (که ۲۰۰ میلیون کاربر را تحت تأثیر قرار داده بود)، از «نه» به «بله» تغییر کند.
- فیلتر دادهها: این ابزار میتواند «نورونهای کتاب مقدس» را شناسایی کند که باعث میشوند مدل به اشتباه ادعا کند ۹.۱۱ از ۹.۹ بزرگتر است؛ این امر به توسعهدهندگان کمک میکند تا دادههای آموزشی را برای جلوگیری از این خطاها فیلتر کنند.
همانطور که در تحلیل قبلی ما دربارهی MappingEvolve و استفاده از عاملهای هوش مصنوعی زاینده (Generative AI) برای کاهش مساحت سنتز منطقی اشاره کردیم، Silico نیز اتوماسیون عاملمحور را به لایهی تفسیرپذیری میآورد تا شرکتهای کوچکتر که بودجهی تیمهای پژوهشی عظیم را ندارند، بتوانند مدلهای خود را بهینهسازی کنند.
اگرچه لئونارد برسکا (Leonard Bereska) معتقد است این کار صرفاً «افزودن دقت به کیمیاگری» است، اما توانایی تقویت یا سرکوب رفتارهای خاص میتواند برای کاربردهای حساس در حوزههای مالی و بهداشت و درمان حیاتی باشد.
اما این شفافیت در مدلهای بازمتن، چالشی بزرگ برای غولهای بسته ایجاد میکند؛ به تحلیل ما دربارهی استراتژیهای OpenAI برای حفظ تسلط بر وزنهای مدلهای خود مراجعه کنید.
گام بعدی شما
- اگر از مدلهای بازمتن استفاده میکنید، ابزارهای تفسیرپذیری مکانیکی را برای شناسایی نقاط ضعف مدل خود بررسی کنید.
- به جای تکیه بر تنظیم دقیق (Fine-tuning) گسترده، سعی کنید رفتارهای نامطلوب را از طریق شناسایی نورونهای تحریککننده حذف کنید.
- نظارهگر واکنش OpenAI به این سطح از شفافیت در مدلهای رقیب باشید.




گفتگو