تصور کنید کلید حساب بانکی یا تقویم کاری خود را به یک هوش مصنوعی بسپارید؛ این کار در حال حاضر یک قمار است، چون ما در واقعیت نمیتوانیم ببینیم که سیستم چگونه تصمیم میگیرد. در ۲۸ ژوئن ۲۰۲۶، جیناو شاه استدلال کرد که هوش مصنوعی به یک نقطه عطف بحرانی رسیده است؛ جایی که سیستمها از «پاسخ به سؤالات» به «اجرای اقدامات برگشتناپذیر» در دنیای واقعی تغییر مسیر دادهاند. اقداماتی نظیر رزرو قرارها، تأیید تراکنشهای مالی، هدایت در محیطهای فیزیکی و حتی نوشتن و اجرای کد.
زیرساختهای پیشرفت
این وضعیت را با تاریخچه اولیه صنعت خودرو مقایسه کنید. خودروها برای مقیاسپذیری و تولید انبوه، منتظر رسیدن به ایمنی کامل نماندند؛ بلکه در کنار ساخت موتورها، سیستمهای تست تصادف و قطعکنندههای مدار را نیز توسعه دادند. در پزشکی نیز آزمایشهای بالینی همین نقش را ایفا کردند. طبق گزارشی از dev.to، هوش مصنوعی در حال حاضر قابلیتهای خود را گسترش میدهد، بدون اینکه زیرساخت ایمنی معادلی برای مدیریت حالتهای شکست (Failure Modes) داشته باشد. بحث در اینجا بر سر خوب یا بد بودن هوش مصنوعی نیست، بلکه سؤال این است که آیا ما میفهمیم وقتی این سیستمها اشتباه میکنند، در داخل آنها چه اتفاقی میافتد یا خیر.
در نرمافزارهای سنتی، برنامه مانند یک نقشه است که در آن هر باگ آدرس مشخصی دارد؛ مثلاً یک شماره خط یا یک متغیر خاص. شما میتوانید یک نقطه توقف (Breakpoint) بگذارید، مراحل اجرا را گامبهگام دنبال کنید و دقیقاً بیابید که منطق برنامه در کجا از انتظارات شما منحرف شده است، زیرا کدها توسط انسان خوانده میشوند، صریح هستند و قابل ردیابیاند. اما هوش مصنوعی به این شکل عمل نمیکند.
مکانیسم «برهمنهی» (Superposition)
درون یک ترنسفورمر، اطلاعات به گونهای ذخیره میشوند که عیبیابی (Debugging) سنتی را به چالش میکشد. در اینجا خبری از شماره خط یا منطق صریح نیست، بلکه میلیاردها عدد اعشاری وجود دارند که معنای جمعی آنها از دل آموزش روی متون انسانی بیرون آمده است.
- معنای توزیعشده: هر کلمه توسط ۲۵۶ عدد نمایش داده میشود. اینها ۲۵۶ معنای مجزا در ۲۵۶ جعبه جداگانه نیستند، بلکه اعدادی هستند که با هم ترکیب میشوند، همپوشانی دارند و برای نمایش هزاران مفهوم به طور همزمان با یکدیگر تعامل میکنند.
- برهمنهی (Superposition): این یک پیامد اجتنابناپذیر از ضرب ماتریسی است که عملیات اصلی هر ترنسفورمر محسوب میشود. این مکانیسم اجازه میدهد کلمهای مانند «بانک» (چه در معنای مالی و چه ساحلی) در همان ۲۵۶ عدد و در جهتهای همپوشان تا شود. وقتی مدل این مفهوم را اشتباه تفسیر کند، خطا در تمام آن ۲۵۶ عدد و در ترکیباتی پخش میشود که ما هنوز نامی برای آنها نگذاشتهایم.
- لایههای عمیق: مدلهای بزرگ اغلب دارای ۹۶ لایه هستند. هر لایه دارای تبدیلهای Q (پرسوجو)، K (کلید) و V (مقدار) مخصوص به خود است که اطلاعات را به شکلهای متفاوتی ترکیب میکند.
- معماریهای پیچیده: لایههای غیرخطی FFN ترکیباتی را ایجاد میکنند که هیچ عملیات خطی نمیتواند آنها را بیان کند. علاوه بر این، ساختار «ترکیب خبرهها» (Mixture of Experts یا MoE) اجازه میدهد یک ورودی واحد، بسته به متن (Context)، مسیرهای محاسباتی متفاوتی را طی کند.
به همین دلیل، هیچ لحظه واحدی وجود ندارد که در آن «تصمیم غلط» گرفته شده باشد؛ بلکه خطا بهصورت تدریجی و جمعی در سرتاسر شبکه شکل میگیرد. وقتی یک مدل شکست میخورد، توسعهدهندگان معمولاً پرامپت را تغییر میدهند، نسخهها را ارتقا میدهند یا یک حفاظ (Guardrail) اضافه میکنند. جیناو شاه این رفتار را با درمان سردردهای مکرر با مسکنهای قویتر مقایسه میکند، بدون اینکه هرگز علت اصلی بیماری بررسی شود. علت ریشهای پنهان میماند زیرا بررسی آن مستلزم درک وضعیت داخلی سیستم است، که همچنان یکی از سختترین مسائل حلنشده در این حوزه است.
ریسک فراخوانی ابزار توسط عاملها (Agentic Tool-Calling)
این مشکل با ظهور «فراخوانی ابزار توسط عاملها» پیامدهای جدیتری پیدا میکند. در یک برنامه استاندارد، فراخوانی یک تابع قطعی (Deterministic) است؛ یعنی ورودی یکسان همیشه خروجی یکسان میدهد. اما در یک عامل هوش مصنوعی، مدل بهصورت احتمالی تصمیم میگیرد که: آیا ابزاری را فراخوانی کند، کدام ابزار را انتخاب کند، چه پارامترهایی را ارسال کند و چگونه نتیجه را تفسیر نماید.
در نرمافزارهای سنتی، یک فرآیند چندمرحلهای دارای «پشته فراخوانی» (Call Stack) است که در آن میتوانید هر فریم و هر تغییر وضعیت را بازرسی کنید. اما در یک عامل هوش مصنوعی، هیچ پشته فراخوانی وجود ندارد. خطاها در هر گام روی هم جمع میشوند و چون اقدامات در دنیای واقعی رخ میدهند، این تصمیمات احتمالی میتوانند نتایجی برگشتناپذیر ایجاد کنند.
کریس اولاه و تیمش در Anthropic تلاش میکنند این مشکل را از طریق «تفسیرپذیری مکانیکی» (Mechanistic Interpretability) حل کنند. آنها ویژگیهای قابل شناسایی مانند قوانین دستوری، تداعیهای واقعی و تحلیل احساسات را یافتهاند. با این حال، حقیقت این است که پژوهشگران تنها ویژگیهایی را پیدا میکنند که از قبل حدس میزدند وجود داشته باشند.
این بدان معناست که اگر شکست در دقت مدل توسط یک ویژگی «نامگذاری نشده» ایجاد شود، نمیتوان بهصورت سیستماتیک جلوی آن را گرفت. در حالی که ما میتوانیم تمام ۱۶ میلیون ترکیب یک کد رنگ هگز را ببینیم، اما تنها بخش کوچکی از ترکیبهای بینهایت درون یک شبکه عصبی را نامگذاری کردهایم.
برای کاربر عادی، این یعنی قابلیت اطمینان به عاملهای هوش مصنوعی تا زمانی که ابزارهای تفسیرپذیری به سطح قابلیتهای مدلها برسند، پیشبینیناپذیر خواهد ماند. ما در حال حاضر سیستمهایی را مستقر میکنیم که میتوانند در دنیای فیزیکی اقدام کنند، اما وقتی事情 خراب میشود، هیچ «پشته فراخوانی» برای بازرسی نداریم.
ساخت این چارچوبهای پاسخگویی، زیرساختهای تست و ابزارهای تفسیرپذیری، به معنای کند کردن پیشرفت یا ایجاد یک جنبش ضد-پیشرفت نیست. بلکه هدف، ایجاد زیرساخت مسئولی است که اجازه دهد هوش مصنوعی بدون شکستهای فاجعهبار و ردیابیناپذیر، در زندگی روزمره مقیاسپذیر شود.
گام بعدی شما
- اگر در حال توسعه عاملهای هوشمند هستید، لایههای تایید انسانی (Human-in-the-loop) را برای هر اقدام برگشتناپذیر اجباری کنید.
- ابزارهای مانیتورینگ خروجیهای احتمالی را جایگزین اعتماد مطلق به مدل کنید.
- پژوهشهای اخیر شرکت Anthropic در زمینه interpretability را دنبال کنید تا با الگوهای شناساییشده آشنا شوید.
اما این چالشهای نرمافزاری تنها بخشی از داستان است؛ محدودیتهای سختافزاری در اجرای این مدلهای عظیم، گلوگاه بعدی است. در واقع، برای رسیدن به این مقیاس از پیچیدگی، ما با گلوگاههای سختافزاری مواجه هستیم که مانع پنهانی در مسیر مقیاسبندی تولید هوش مصنوعی شدهاند — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو