دیوارِ اتصال علّی: ۲۰۰ آزمایش شکست‌خورده برای جایگزینی شبکه‌های عصبی

منبع خبر

۱ دقیقه پیش·۱۴ تیر ۱۴۰۵۱۲ دقیقه مطالعه

تحلیل

آیا می‌توان جایگزینی برای مدل‌های زبانی بزرگ ساخت؟ ۸ ماه، حدود ۲۰۰ آزمایش ناموفق، یک بن‌بست. ۲

اشتراک‌گذاری

تصور کنید می‌خواهید سیستمی بسازید که بدون نیاز به پردازش‌های سنگین گرافیکی، از اشتباهاتش درس بگیرد و هرگز آن‌ها را تکرار نکند. این رویا، هدف پژوهشی بود که پس از ۲۰۰ آزمایش و هشت ماه تلاش، به یک دیوار سخت برخورد کرد.

طبق گزارشی که در ۵ ژوئیه ۲۰۲۶ منتشر شد، تلاش برای جایگزینی وزن‌ها (Weights) در یک شبکه عصبی (Neural Network) — که شبیه نقشه‌ای از اتصالات کوچک است که سیگنال را به جواب می‌رساند — با یک زیرساخت نمادین و مبتنی بر CPU، به شکست کامل در «اتصال علّی» (Causal Binding) منجر شده است. این پروژه، که تقریباً ۲۰۰ آزمایش شکست‌خورده را در طول هشت ماه مستند کرده است، قصد داشت راهی بیابد تا سیستم بتواند تجربه کسب کند و وضعیت داخلی خود را بدون نیاز به بازآموزی یک مدل زبانی بزرگ (LLM) تغییر دهد. کدهایی که از این فرآیند دشوار جان سالم به در بردند، اکنون در مجموعه AuraSDK قرار دارند.

این پروژه هرگز قصد نداشت یک رابط ساده برای چت‌بات‌ها (Chatbot Wrapper)، یک لایه جدید از دستورات (Prompt Stack) یا یک پایگاه‌داده برداری با رابط کاربری زیباتر بسازد. در عوض، این یک پرسش خطرناک و محدود بود: آیا یک سیستم غیرعصبی و مبتنی بر CPU می‌تواند تجربه کسب کند و رفتار آینده خود را بدون بازآموزی بهبود ببخشد؟ پاسخ صادقانه پس از هشت ماه، یک «بله» ساده نیست. نتیجه نهایی این است که در حالی که برخی مکانیزم‌ها زنده ماندند، اکثر حامل‌ها شکست خوردند و یک «دیوار» دقیق در معماری شناسایی شد.

همان‌طور که در تحلیل قبلی ما درباره‌ی AgentGuard v0.5.5 و نقش آن در تشخیص آلودگی‌ها (Taints) در مرزهای توابع اشاره کردیم، این پژوهش گامی عمیق‌تر به درون لایه‌های معماری «دانستن» در عامل‌های هوش مصنوعی است. در حالی که AgentGuard بر ایمنی و تشخیص مرزها متمرکز بود، این آزمایش می‌پرسید آیا یک سیستم می‌تواند از مرحله حافظه ساده (ثبتی) به دانش واقعی عبور کند؛ یعنی توانایی تغییر رفتار آینده بر اساس پیامدهای گذشته.

جست‌وجو برای زیرساخت دانش

پژوهشگر به دنبال ایجاد زیرساختی بود که شبیه به مجموعه‌ای کوچک و تغییرپذیر از وزن‌ها عمل کند. هدف این نبود که یک ترنسفورمر از ابتدا آموزش داده شود یا مدل‌های کلاس GPT را در مهارت‌های زبانی شکست دهد. هدف، یک زیرساخت دانش با ویژگی‌های ضروری خاص بود:

باید پس از کسب تجربه تغییر کند و این تغییر پس از بازراه‌اندازی سیستم نیز باقی بماند.
باید رفتار آینده را بدون نیاز به تغییر در کد منبع تغییر دهد.
باید بتواند دانش را به موارد دیده‌نشده اما مرتبط منتقل کند.
در صورت جعلی بودن سیگنال، باید در آزمایش‌های کنترل‌شده (shuffled/null controls) شکست بخورد.
باید از نظر رفتاری فشرده باشد، نه اینکه صرفاً بایت‌های ذخیره شده فشرده شده باشند.
در مواردی که پشتیبانی لازم را ندارد، باید از پاسخ دادن خودداری کند (Abstain)، به‌جای اینکه با اطمینان حدس بزند.

ذخیره‌سازی (Storage) یک مسئله حل‌شده است. چالش واقعی، شکاف میان حافظه (چه اتفاقی افتاد) و وزن‌ها (بعدی چه اتفاقی می‌افتد) است. یک گزارش (Log) می‌تواند ثبت کند که «کاندید A در موقعیت X شکست خورد و کاندید B در موقعیت X موفق بود». اما دانش واقعی مستلزم آن است که سیستم یک موقعیت جدید X' را تشخیص دهد، از اقدامات مشابه A دوری کند، اقدامات مشابه B را امتحان کند و دقیقاً بداند چه زمانی این شباهت (Analogy) دیگر کاربرد ندارد. این تمایز بسیار بی‌رحمانه است: ذخیره‌سازی یک رویداد را حفظ می‌کند؛ اما دانش باید اقدام بعدی را تغییر دهد. این دقیقاً همان جایی است که طراحی‌های این پروژه فروپاشید.

نبرد حامل‌ها

برای حل این مشکل، پژوهشگر بیش از ۳۰ «حامل» (Carrier) را آزمایش کرد؛ فرم‌های داخلی که هدفشان نگه داشتن تجربیات قابل استفاده بود. هر حامل تکه‌ای از این پازل را حفظ می‌کرد، اما هیچ‌کدام نتوانستند انتقال علّی کامل را رقم بزنند. هدف این بود که از تداعی‌های ساده (مثلاً «A در نزدیکی B خوب بود») به یک قاعده علّی کامل برسیم: «وقتی ورودی ویژگی P را دارد و وضعیت در شرایط C است، اقدام A وضعیت S را در جهت D تغییر می‌دهد، مگر اینکه شرط مرزی B فعال باشد».

نتایج حاصل از آزمایش حامل‌ها به شرح زیر بود:

حافظه فقط-افزودنی (Append-only memory): تاریخچه رویدادها را حفظ کرد اما نتوانست به موارد دیده‌نشده تعمیم یابد.
فشرده‌سازی سطحی (Surface compression): زبان را کوتاه‌تر کرد، اما تأثیری بر رفتار نداشت.
پیوندهای گراف/n-gram: هم‌بستگی‌ها صرفاً به یک شاخص جست‌وجو تبدیل شدند، نه یک مدل علّی.
حالت مسیر (Route state): نقش و انتظارات باعث تغییر رفتار شدند، اما این تغییر بیش از حد محدود و تخصصی ماند.
یال‌های تایپ‌شده (Typed edges): برچسب‌های رابطه تنها زمانی کمک کردند که دستور زبان (Grammar) رابطه از پیش ارائه شده بود.
بردارهای درجه‌بندی شده (Graded vectors): اندازه، فشار و جهت را ثبت کردند، اما فاقد یک مکانیسم اجرایی برای تغییر رفتار بودند.
سلول‌های زنده (Living cells): برخی سیگنال‌های تضاد محلی را منتقل کردند، اما ممکن بود اقدام اشتباهی را منتقل کنند.
ردپاهای ژاکوبین‌گونه (Jacobian-like footprints): برای تعمیرات خطی مفید بودند اما در مواجهه با معناشناسی شاخه‌ای (Branching) و جابه‌جایی بیت (Bit-shift) شکست خوردند.
میدان‌های توپولوژی (Topology fields): حوضه‌های جذب را در دنیاهای مصنوعی یاد گرفتند، اما در قطعات واقعی کد (Cargo snippets)، نمره ۰ از ۵ گرفتند (در حالی که ۵ مورد از ۵ مورد خودداری از پاسخ کردند).

موفقیت‌های سیگنالی

بر اساس بررسی‌ها، همه آزمایش‌ها شکست مطلق نبودند. برخی نتایج «سیگنال» بودند، نه «راهکار»؛ تمایزی که مانع از ماه‌ها خودفریبی شد. یک آزمایش روی حالت مسیر ثابت کرد که وضعیت داخلی می‌تواند بدون تغییر کد، رفتار را عوض کند؛ سیستم حمایت یا رد را دید، وضعیت خود را تغییر داد و سپس انتخاب متفاوتی کرد. نکته حیاتی این بود که کنترل‌های حالت-به‌هم ریخته (shuffled-state) شکست خوردند، که ثابت می‌کند یک وضعیت نمادین محدود می‌تواند بر انتخاب تأثیر بگذارد.

بردارهای پیامد درجه‌بندی شده نیز سیگنال‌های واقعی از تعمیم‌پذیری نشان دادند. این بردارها به‌جای آموزش گرادینتی، توسط تجربه به‌روزرسانی می‌شدند. داده‌ها نشان دادند:

جهت یکسان با پشتیبانی بیشتر: منجر به بزرگی (Magnitude) بیشتر بردار شد.
۵۰٪ تجربه مشترک: شباهت حدود ۰.۴۱ بود.
۰٪ تجربه مشترک: شباهت حدود ۰.۰۵ بود (با حاشیه تفکیک ۰.۳۵).
پشتیبانی و سپس شواهد زخم (Scar evidence): جهت بردار کاملاً flip شد (برگشت).
تکانه‌های تصادفی (Random nudges): منجر به شباهت نزدیک به صفر شد.

شباهت ۰.۴۱ در تجربیات partially shared بسیار مهم است، زیرا نشان‌دهنده تعمیم واقعی است و نه صرفاً حفظ کردن (Memorization)؛ این شباهت از دل ساختار بیرون می‌آید. با این حال، این نتایج هنوز قاعده اجرایی برای اینکه «چه زمانی» یک انتقال باید فعال شود را ارائه نکردند.

شکست در دنیاهای اجرایی

برای حذف سوگیری داده‌های مصنوعی — که در آن‌ها طراحی دنیا می‌تواند به‌طور تصادفی منجر به موفقیت شود — پژوهشگر آزمایش‌ها را به «دنیاهای اجرایی» منتقل کرد. این دنیاها شامل قطعات کد، باگ‌های کنترل‌شده، بازخوردهای کامپایلر و تلاش‌های تعمیر با پیامدهای واقعیِ «پاس/فیل» (Pass/Fail) بود.

در حالی که یک ردپای عددی محلی می‌توانست یک «تعمیر خطی» (مثلاً افزایش یک مقدار، تغییر یک مرز عددی یا متصل کردن یک باقی‌مانده محلی به یک وصله محلی) را مدیریت کند، در مواردی که نیاز به مکانیسم واقعی داشتند، کاملاً شکست خورد:

معناشناسی جابه‌جایی بیت (Bit-shift semantics)
رفتار شاخه‌ای (Branch behavior)
شرایط مرزی (Boundary conditions)
انتقال وضعیت (State transitions)

معیار سخت‌گیرانه‌تر شد: برای اینکه یک حامل بتواند به عنوان یک «هسته مرکزی» (Core) شناخته شود و نه فقط یک عملگر کمکی، باید بتواند از قطعات اجرایی غیرخطی مخلوط (شامل دلتای عددی، جابه‌جایی بیت، شرایط مرزی، انتقال وضعیت و خودداری منفی) جان سالم به در ببرد.

تلاش برای مغز تک‌فایلی

در یک آزمایش، بررسی شد که آیا کل وضعیت یادگرفته‌شده می‌تواند در یک فایل تغییرپذیر زندگی کند یا خیر. سیستم عمل می‌کرد، دنیا پیامدها را برمی‌گرداند و فایل وضعیت تغییر می‌کرد. این هدف به عنوان یک زیرساخت رفتاری در حال رشد طراحی شده بود، نه یک پایگاه‌داده.

نتایج مختلط بود: چرخه انتقال نمره ۳ از ۵ گرفت، در حالی که خط پایه کور (Blind baseline) نمره ۱ از ۵ گرفت. اگرچه فایل از خط پایه بهتر بود و برخی تجربیات انتقال زنده را منتقل کرد، اما یک نتیجه «اشتباه» وجود داشت. در یک حامل دانش، انتخاب مطمئنِ یک اقدام غلط، یک شکست بحرانی است. تشخیص نهایی این بود که سلول‌های انتقالِ پیوند‌یافته (Bound transition-cells) ظرفیت را افزایش دادند اما مکانیسم کافی را حفظ نکردند؛ این ثابت کرد که ساختار بیشتر لزوماً به معنای دانش بیشتر نیست.

ترایلما (سه‌گانه) لنگر

پروژه در نهایت به «دیوار» رسید: مشکل اتصال (Binding Problem). این چالش مربوط به «انتقال علّی قابل انتقال» است: شرط $
ightarrow$ اقدام $
ightarrow$ پیامد $
ightarrow$ چه زمانی نباید اعمال شود. اگر سیستمی یاد بگیرد که «گره A بر گره B تأثیر می‌گذارد» و «تغییر A باعث تعمیر شکست F می‌شود»، نمی‌تواند این را به دنیای جدیدی با نام‌های گره متفاوت منتقل کند، مگر اینکه یک «لنگر تناظر» (Correspondence Anchor) داشته باشد. محاسبه این تناظر در واقع همان ایزومورفیسم گراف (Graph Isomorphism) است که بدون لنگر، یک مسئله NP-hard است.

این موضوع یک سه‌گانه لنگر ایجاد کرد:

۱. لنگر داده‌شده (Given Anchor): یک انسان یا یک قاعده به سیستم می‌گوید کدام بخش‌ها با هم متناظرات هستند. انتقال آسان است، اما دانش تأمین شده است، نه یادگرفته شده.
۲. لنگر جست‌وجو شده (Searched Anchor): سیستم تمام پیوندهای ممکن را جست‌وجو می‌کند. با افزایش گره‌ها و روابط، حجم جست‌وجو به‌صورت ترکیبی منفجر شده و بیش از حد هزینه‌بر می‌شود.
۳. لنگر یادگرفته‌شده (Learned Anchor): یک LLM یا مدل Embedding پیوند را فراهم می‌کند. در این حالت، زیرساخت نمادین صرفاً به یک حافظه موقت (Cache)، تأییدکننده یا بهینه‌ساز برای یک منبع هوش دیگر تبدیل می‌شود، نه یک زیرساخت مستقل.

آنچه از دیوار جان سالم به در برد

با وجود شکست در ساخت «وزن‌های جایگزین»، چندین مؤلفه کاربردی و درس بقا یافتند:

حلقه‌های پیامد (Consequence Loops): بهبود تنها از طریق چرخه «تلاش $
ightarrow$ مشاهده $
ightarrow$ تغییر $
ightarrow$ تکرار» رخ می‌دهد. اسناد و گراف‌های استاتیک بدون این بازخورد ضعیف هستند.
حفاظ‌های قطعی (Deterministic Guards): فیلدهای خاص (شناسه‌ها، تاریخ‌ها، مبالغ، نام‌ها، مسیرها، تغییرات وضعیت) باید به‌طور صریح استخراج و حفظ شوند و از زیرساخت‌های مبهم (Fuzzy) دور بمانند.
داوران دنیا (World Judges): کامپایلرها و بررسی‌های اجرایی صادق‌تر از امتیازات داخلی هستند، زیرا پاسخ‌های باینری (پاس/فیل) برمی‌گردانند.
پرهیز (Abstention) به عنوان یک ویژگی: سیستمی ضعیف که از پاسخ دادن خودداری می‌کند، مفیدتر از سیستمی است که همیشه انتقال می‌دهد. در سیستم‌های علّی، یک انتقال اشتباه اگر مورد جدید شرط مرزی متفاوتی با الگوی ذخیره‌شده داشته باشد، فعالاً مضر است.
«اندام‌های» ارزشمند: حالت مسیر (Route-state)، زخم‌ها (Scars)، روابط تایپ‌شده، حفاظ‌های تاریخ و پروب‌های ارزان-قیمت، مؤلفه‌های مفیدی هستند، حتی اگر یک مغز کامل را تشکیل ندهند.

این تلاش هشت‌ماهه روی CPU تأکید می‌کند که چرا هوش مصنوعی نمادین تاریخی در برابر یادگیری عمیق شکست خورد: معیار تناظر باید یاد گرفته شود، نه فرض شود. این نتیجه‌گیری مانع از تلف کردن چرخه‌های پردازشی بیشتر روی «ظروف زیباتر» می‌شود.

آزمونی برای رویکردهای آینده

پس از این شکست‌ها، هر رویکرد جدید باید از سد معیارهای سخت‌گیرانه‌تری عبور کند. باید بتواند از بازراه‌اندازی سیستم جان سالم به در ببرد، کنترل‌های null/shuffled را شکست دهد، به موارد دیده‌نشده تعمیم یابد و در موارد پشتیبانی‌نشده خودداری کند. باید بتواند انتقال‌های غیرخطی را مدیریت کرده و فیلدهای دقیق را به‌طور مجزا حفظ کند. مهم‌تر از همه، باید خودِ «انتقال» (Transition) را حمل کند، نه فقط جنبه‌ای از آن را.

برای توسعه‌دهندگان و معماران کسب‌وکار، این بدان معناست که یک سیستم نمادین نباید به عنوان جایگزینی برای وزن‌های LLM فروخته شود. در عوض، می‌تواند به عنوان ابزاری برای موارد زیر ارزش واقعی ایجاد کند:

حافظه ارزان‌تر برای جلسات طولانی (Long-session memory)
وضعیت حفظ‌کننده شواهد (Evidence-preserving state)
حفاظ‌های قطعی (Deterministic guards)
اقداماتی که توسط دنیا تأیید شده‌اند (World-verified actions)
امتناع از بازنویسی «زخم‌های» شناخته‌شده
تولید تست بر اساس پیامدها
اتوماسیون محدود در اطراف داوران خارجی

رویای اولیه یک زیرساخت تغییرپذیر فقط با CPU بود که مانند وزن‌های جایگزین رفتار کند. واقعیت این است که ذخیره‌سازی آسان است و تغییر رفتار ممکن، اما «اتصال علّی» همان دیوار است. برای هوشمندانه عمل کردن، یک سیستم باید بداند کدام تجربه قدیمی با وضعیت فعلی متناظر است، کدام انتقال اعمال می‌شود و کجا شباهت می‌شکند. با ۲۰۰ آزمایش و بیش از ۳۰ حامل کاندید، نتیجه همچنان این است: به‌خاطر سپردن کافی نیست.

گام بعدی شما

اگر در حال توسعه عامل‌های هوش مصنوعی هستید، به‌جای تلاش برای جایگزینی وزن‌ها، از سیستم‌های نمادین برای ایجاد «حفاظ‌های قطعی» (Deterministic Guards) استفاده کنید.
برای مدیریت حافظه طولانی‌مدت در جلسات پیچیده، از رویکرد «حلقه پیامد» (Try-Observe-Mutate) استفاده کنید تا خطاها به «زخم‌های دانشی» تبدیل شوند و تکرار نشوند.
در طراحی سیستم‌های خودکار، کامپایلر یا محیط‌های اجرایی را به عنوان «داور نهایی» قرار دهید، نه امتیاز داخلی مدل.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.