جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

آیا واقعاً می‌خواهید آموزش مدل‌های زبانی را مانند یک کیمیاگری قدیمی پیش ببرید یا می‌خواهید آن را به یک مهندسی دقیق تبدیل کنید؟ اگر هنوز فکر می‌کنید راه حل توهمات فقط افزایش قدرت محاسباتی است، سخت در اشتباهید.

در ۳۰ آوریل ۲۰۲۶، شرکت Goodfire پلتفرم Silico را معرفی کرد؛ ابزاری که هدف آن عیب‌یابی مدل‌های زبانی بزرگ (Large Language Models) از طریق تفسیرپذیری مکانیکی (Mechanistic Interpretability) است. به نقل از گفتگوهای اختصاصی با MIT Technology Review، اریک هو (Eric Ho)، مدیرعامل این شرکت، معتقد است وسواس صنعت بر روی مقیاس و قدرت محاسباتی (Compute) یک اشتباه است و باید به سمت «مهندسی دقیق» در طراحی مدل‌ها حرکت کنیم.

hand with pliers poking at a belt attached to a complicated mess of valves and switches

پلتفرم Silico به توسعه‌دهندگان اجازه می‌دهد تا روی تک‌تک نورون‌ها یا گروه‌های عصبی در مدل‌های وزن‌های باز (Open Weights) زوم کنند تا دقیقاً بفهمند چه چیزی باعث تحریک آن‌ها می‌شود. طبق اعلام این شرکت، Silico از عامل‌ها (Agents) برای خودکارسازی فرآیندهای پیچیده‌ای استفاده می‌کند که پیش از این تنها توسط پژوهشگران انسانی انجام می‌شد. قابلیت‌های کلیدی این ابزار عبارتند از:

اصلاح رفتاری: در مدل Qwen 3، پژوهشگران نورونی خاص مرتبط با «مسئله ترولی» را شناسایی کردند؛ فعال کردن این نورون، مدل را مجبور می‌کند پاسخ‌ها را به صورت دلماهای اخلاقی صریح بیان کند.
هدایت اخلاقی: در یک آزمایش، تقویت نورون‌های مرتبط با شفافیت باعث شد پاسخ مدل در ۹۰٪ تلاش‌ها، در مورد افشای رفتارهای فریبکارانه (که ۲۰۰ میلیون کاربر را تحت تأثیر قرار داده بود)، از «نه» به «بله» تغییر کند.
فیلتر داده‌ها: این ابزار می‌تواند «نورون‌های کتاب مقدس» را شناسایی کند که باعث می‌شوند مدل به اشتباه ادعا کند ۹.۱۱ از ۹.۹ بزرگ‌تر است؛ این امر به توسعه‌دهندگان کمک می‌کند تا داده‌های آموزشی را برای جلوگیری از این خطاها فیلتر کنند.

همان‌طور که در تحلیل قبلی ما درباره‌ی MappingEvolve و استفاده از عامل‌های هوش مصنوعی زاینده (Generative AI) برای کاهش مساحت سنتز منطقی اشاره کردیم، Silico نیز اتوماسیون عامل‌محور را به لایه‌ی تفسیرپذیری می‌آورد تا شرکت‌های کوچک‌تر که بودجه‌ی تیم‌های پژوهشی عظیم را ندارند، بتوانند مدل‌های خود را بهینه‌سازی کنند.

اگرچه لئونارد برسکا (Leonard Bereska) معتقد است این کار صرفاً «افزودن دقت به کیمیاگری» است، اما توانایی تقویت یا سرکوب رفتارهای خاص می‌تواند برای کاربردهای حساس در حوزه‌های مالی و بهداشت و درمان حیاتی باشد.

اما این شفافیت در مدل‌های بازمتن، چالشی بزرگ برای غول‌های بسته ایجاد می‌کند؛ به تحلیل ما درباره‌ی استراتژی‌های OpenAI برای حفظ تسلط بر وزن‌های مدل‌های خود مراجعه کنید.

گام بعدی شما

اگر از مدل‌های بازمتن استفاده می‌کنید، ابزارهای تفسیرپذیری مکانیکی را برای شناسایی نقاط ضعف مدل خود بررسی کنید.
به جای تکیه بر تنظیم دقیق (Fine-tuning) گسترده، سعی کنید رفتارهای نامطلوب را از طریق شناسایی نورون‌های تحریک‌کننده حذف کنید.
نظاره‌گر واکنش OpenAI به این سطح از شفافیت در مدل‌های رقیب باشید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

hand with pliers poking at a belt attached to a complicated mess of valves and switches

اصلاح رفتاری: در مدل Qwen 3، پژوهشگران نورونی خاص مرتبط با «مسئله ترولی» را شناسایی کردند؛ فعال کردن این نورون، مدل را مجبور می‌کند پاسخ‌ها را به صورت دلماهای اخلاقی صریح بیان کند.
هدایت اخلاقی: در یک آزمایش، تقویت نورون‌های مرتبط با شفافیت باعث شد پاسخ مدل در ۹۰٪ تلاش‌ها، در مورد افشای رفتارهای فریبکارانه (که ۲۰۰ میلیون کاربر را تحت تأثیر قرار داده بود)، از «نه» به «بله» تغییر کند.
فیلتر داده‌ها: این ابزار می‌تواند «نورون‌های کتاب مقدس» را شناسایی کند که باعث می‌شوند مدل به اشتباه ادعا کند ۹.۱۱ از ۹.۹ بزرگ‌تر است؛ این امر به توسعه‌دهندگان کمک می‌کند تا داده‌های آموزشی را برای جلوگیری از این خطاها فیلتر کنند.

گام بعدی شما

اگر از مدل‌های بازمتن استفاده می‌کنید، ابزارهای تفسیرپذیری مکانیکی را برای شناسایی نقاط ضعف مدل خود بررسی کنید.
به جای تکیه بر تنظیم دقیق (Fine-tuning) گسترده، سعی کنید رفتارهای نامطلوب را از طریق شناسایی نورون‌های تحریک‌کننده حذف کنید.
نظاره‌گر واکنش OpenAI به این سطح از شفافیت در مدل‌های رقیب باشید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

جراحی عصبی مدل‌های زبانی: Silico چگونه توهمات AI را متوقف می‌کند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران