تصور کنید میخواهید سیستمی بسازید که بدون نیاز به پردازشهای سنگین گرافیکی، از اشتباهاتش درس بگیرد و هرگز آنها را تکرار نکند. این رویا، هدف پژوهشی بود که پس از ۲۰۰ آزمایش و هشت ماه تلاش، به یک دیوار سخت برخورد کرد.
طبق گزارشی که در ۵ ژوئیه ۲۰۲۶ منتشر شد، تلاش برای جایگزینی وزنها (Weights) در یک شبکه عصبی (Neural Network) — که شبیه نقشهای از اتصالات کوچک است که سیگنال را به جواب میرساند — با یک زیرساخت نمادین و مبتنی بر CPU، به شکست کامل در «اتصال علّی» (Causal Binding) منجر شده است. این پروژه، که تقریباً ۲۰۰ آزمایش شکستخورده را در طول هشت ماه مستند کرده است، قصد داشت راهی بیابد تا سیستم بتواند تجربه کسب کند و وضعیت داخلی خود را بدون نیاز به بازآموزی یک مدل زبانی بزرگ (LLM) تغییر دهد. کدهایی که از این فرآیند دشوار جان سالم به در بردند، اکنون در مجموعه AuraSDK قرار دارند.
این پروژه هرگز قصد نداشت یک رابط ساده برای چتباتها (Chatbot Wrapper)، یک لایه جدید از دستورات (Prompt Stack) یا یک پایگاهداده برداری با رابط کاربری زیباتر بسازد. در عوض، این یک پرسش خطرناک و محدود بود: آیا یک سیستم غیرعصبی و مبتنی بر CPU میتواند تجربه کسب کند و رفتار آینده خود را بدون بازآموزی بهبود ببخشد؟ پاسخ صادقانه پس از هشت ماه، یک «بله» ساده نیست. نتیجه نهایی این است که در حالی که برخی مکانیزمها زنده ماندند، اکثر حاملها شکست خوردند و یک «دیوار» دقیق در معماری شناسایی شد.
همانطور که در تحلیل قبلی ما دربارهی AgentGuard v0.5.5 و نقش آن در تشخیص آلودگیها (Taints) در مرزهای توابع اشاره کردیم، این پژوهش گامی عمیقتر به درون لایههای معماری «دانستن» در عاملهای هوش مصنوعی است. در حالی که AgentGuard بر ایمنی و تشخیص مرزها متمرکز بود، این آزمایش میپرسید آیا یک سیستم میتواند از مرحله حافظه ساده (ثبتی) به دانش واقعی عبور کند؛ یعنی توانایی تغییر رفتار آینده بر اساس پیامدهای گذشته.
جستوجو برای زیرساخت دانش
پژوهشگر به دنبال ایجاد زیرساختی بود که شبیه به مجموعهای کوچک و تغییرپذیر از وزنها عمل کند. هدف این نبود که یک ترنسفورمر از ابتدا آموزش داده شود یا مدلهای کلاس GPT را در مهارتهای زبانی شکست دهد. هدف، یک زیرساخت دانش با ویژگیهای ضروری خاص بود:
- باید پس از کسب تجربه تغییر کند و این تغییر پس از بازراهاندازی سیستم نیز باقی بماند.
- باید رفتار آینده را بدون نیاز به تغییر در کد منبع تغییر دهد.
- باید بتواند دانش را به موارد دیدهنشده اما مرتبط منتقل کند.
- در صورت جعلی بودن سیگنال، باید در آزمایشهای کنترلشده (shuffled/null controls) شکست بخورد.
- باید از نظر رفتاری فشرده باشد، نه اینکه صرفاً بایتهای ذخیره شده فشرده شده باشند.
- در مواردی که پشتیبانی لازم را ندارد، باید از پاسخ دادن خودداری کند (Abstain)، بهجای اینکه با اطمینان حدس بزند.
ذخیرهسازی (Storage) یک مسئله حلشده است. چالش واقعی، شکاف میان حافظه (چه اتفاقی افتاد) و وزنها (بعدی چه اتفاقی میافتد) است. یک گزارش (Log) میتواند ثبت کند که «کاندید A در موقعیت X شکست خورد و کاندید B در موقعیت X موفق بود». اما دانش واقعی مستلزم آن است که سیستم یک موقعیت جدید X' را تشخیص دهد، از اقدامات مشابه A دوری کند، اقدامات مشابه B را امتحان کند و دقیقاً بداند چه زمانی این شباهت (Analogy) دیگر کاربرد ندارد. این تمایز بسیار بیرحمانه است: ذخیرهسازی یک رویداد را حفظ میکند؛ اما دانش باید اقدام بعدی را تغییر دهد. این دقیقاً همان جایی است که طراحیهای این پروژه فروپاشید.
نبرد حاملها
برای حل این مشکل، پژوهشگر بیش از ۳۰ «حامل» (Carrier) را آزمایش کرد؛ فرمهای داخلی که هدفشان نگه داشتن تجربیات قابل استفاده بود. هر حامل تکهای از این پازل را حفظ میکرد، اما هیچکدام نتوانستند انتقال علّی کامل را رقم بزنند. هدف این بود که از تداعیهای ساده (مثلاً «A در نزدیکی B خوب بود») به یک قاعده علّی کامل برسیم: «وقتی ورودی ویژگی P را دارد و وضعیت در شرایط C است، اقدام A وضعیت S را در جهت D تغییر میدهد، مگر اینکه شرط مرزی B فعال باشد».
نتایج حاصل از آزمایش حاملها به شرح زیر بود:
- حافظه فقط-افزودنی (Append-only memory): تاریخچه رویدادها را حفظ کرد اما نتوانست به موارد دیدهنشده تعمیم یابد.
- فشردهسازی سطحی (Surface compression): زبان را کوتاهتر کرد، اما تأثیری بر رفتار نداشت.
- پیوندهای گراف/n-gram: همبستگیها صرفاً به یک شاخص جستوجو تبدیل شدند، نه یک مدل علّی.
- حالت مسیر (Route state): نقش و انتظارات باعث تغییر رفتار شدند، اما این تغییر بیش از حد محدود و تخصصی ماند.
- یالهای تایپشده (Typed edges): برچسبهای رابطه تنها زمانی کمک کردند که دستور زبان (Grammar) رابطه از پیش ارائه شده بود.
- بردارهای درجهبندی شده (Graded vectors): اندازه، فشار و جهت را ثبت کردند، اما فاقد یک مکانیسم اجرایی برای تغییر رفتار بودند.
- سلولهای زنده (Living cells): برخی سیگنالهای تضاد محلی را منتقل کردند، اما ممکن بود اقدام اشتباهی را منتقل کنند.
- ردپاهای ژاکوبینگونه (Jacobian-like footprints): برای تعمیرات خطی مفید بودند اما در مواجهه با معناشناسی شاخهای (Branching) و جابهجایی بیت (Bit-shift) شکست خوردند.
- میدانهای توپولوژی (Topology fields): حوضههای جذب را در دنیاهای مصنوعی یاد گرفتند، اما در قطعات واقعی کد (Cargo snippets)، نمره ۰ از ۵ گرفتند (در حالی که ۵ مورد از ۵ مورد خودداری از پاسخ کردند).
موفقیتهای سیگنالی
بر اساس بررسیها، همه آزمایشها شکست مطلق نبودند. برخی نتایج «سیگنال» بودند، نه «راهکار»؛ تمایزی که مانع از ماهها خودفریبی شد. یک آزمایش روی حالت مسیر ثابت کرد که وضعیت داخلی میتواند بدون تغییر کد، رفتار را عوض کند؛ سیستم حمایت یا رد را دید، وضعیت خود را تغییر داد و سپس انتخاب متفاوتی کرد. نکته حیاتی این بود که کنترلهای حالت-بههم ریخته (shuffled-state) شکست خوردند، که ثابت میکند یک وضعیت نمادین محدود میتواند بر انتخاب تأثیر بگذارد.
بردارهای پیامد درجهبندی شده نیز سیگنالهای واقعی از تعمیمپذیری نشان دادند. این بردارها بهجای آموزش گرادینتی، توسط تجربه بهروزرسانی میشدند. دادهها نشان دادند:
- جهت یکسان با پشتیبانی بیشتر: منجر به بزرگی (Magnitude) بیشتر بردار شد.
- ۵۰٪ تجربه مشترک: شباهت حدود ۰.۴۱ بود.
- ۰٪ تجربه مشترک: شباهت حدود ۰.۰۵ بود (با حاشیه تفکیک ۰.۳۵).
- پشتیبانی و سپس شواهد زخم (Scar evidence): جهت بردار کاملاً flip شد (برگشت).
- تکانههای تصادفی (Random nudges): منجر به شباهت نزدیک به صفر شد.
شباهت ۰.۴۱ در تجربیات partially shared بسیار مهم است، زیرا نشاندهنده تعمیم واقعی است و نه صرفاً حفظ کردن (Memorization)؛ این شباهت از دل ساختار بیرون میآید. با این حال، این نتایج هنوز قاعده اجرایی برای اینکه «چه زمانی» یک انتقال باید فعال شود را ارائه نکردند.
شکست در دنیاهای اجرایی
برای حذف سوگیری دادههای مصنوعی — که در آنها طراحی دنیا میتواند بهطور تصادفی منجر به موفقیت شود — پژوهشگر آزمایشها را به «دنیاهای اجرایی» منتقل کرد. این دنیاها شامل قطعات کد، باگهای کنترلشده، بازخوردهای کامپایلر و تلاشهای تعمیر با پیامدهای واقعیِ «پاس/فیل» (Pass/Fail) بود.
در حالی که یک ردپای عددی محلی میتوانست یک «تعمیر خطی» (مثلاً افزایش یک مقدار، تغییر یک مرز عددی یا متصل کردن یک باقیمانده محلی به یک وصله محلی) را مدیریت کند، در مواردی که نیاز به مکانیسم واقعی داشتند، کاملاً شکست خورد:
- معناشناسی جابهجایی بیت (Bit-shift semantics)
- رفتار شاخهای (Branch behavior)
- شرایط مرزی (Boundary conditions)
- انتقال وضعیت (State transitions)
معیار سختگیرانهتر شد: برای اینکه یک حامل بتواند به عنوان یک «هسته مرکزی» (Core) شناخته شود و نه فقط یک عملگر کمکی، باید بتواند از قطعات اجرایی غیرخطی مخلوط (شامل دلتای عددی، جابهجایی بیت، شرایط مرزی، انتقال وضعیت و خودداری منفی) جان سالم به در ببرد.
تلاش برای مغز تکفایلی
در یک آزمایش، بررسی شد که آیا کل وضعیت یادگرفتهشده میتواند در یک فایل تغییرپذیر زندگی کند یا خیر. سیستم عمل میکرد، دنیا پیامدها را برمیگرداند و فایل وضعیت تغییر میکرد. این هدف به عنوان یک زیرساخت رفتاری در حال رشد طراحی شده بود، نه یک پایگاهداده.
نتایج مختلط بود: چرخه انتقال نمره ۳ از ۵ گرفت، در حالی که خط پایه کور (Blind baseline) نمره ۱ از ۵ گرفت. اگرچه فایل از خط پایه بهتر بود و برخی تجربیات انتقال زنده را منتقل کرد، اما یک نتیجه «اشتباه» وجود داشت. در یک حامل دانش، انتخاب مطمئنِ یک اقدام غلط، یک شکست بحرانی است. تشخیص نهایی این بود که سلولهای انتقالِ پیوندیافته (Bound transition-cells) ظرفیت را افزایش دادند اما مکانیسم کافی را حفظ نکردند؛ این ثابت کرد که ساختار بیشتر لزوماً به معنای دانش بیشتر نیست.
ترایلما (سهگانه) لنگر
پروژه در نهایت به «دیوار» رسید: مشکل اتصال (Binding Problem). این چالش مربوط به «انتقال علّی قابل انتقال» است: شرط $
ightarrow$ اقدام $
ightarrow$ پیامد $
ightarrow$ چه زمانی نباید اعمال شود. اگر سیستمی یاد بگیرد که «گره A بر گره B تأثیر میگذارد» و «تغییر A باعث تعمیر شکست F میشود»، نمیتواند این را به دنیای جدیدی با نامهای گره متفاوت منتقل کند، مگر اینکه یک «لنگر تناظر» (Correspondence Anchor) داشته باشد. محاسبه این تناظر در واقع همان ایزومورفیسم گراف (Graph Isomorphism) است که بدون لنگر، یک مسئله NP-hard است.
این موضوع یک سهگانه لنگر ایجاد کرد:
۱. لنگر دادهشده (Given Anchor): یک انسان یا یک قاعده به سیستم میگوید کدام بخشها با هم متناظرات هستند. انتقال آسان است، اما دانش تأمین شده است، نه یادگرفته شده.
۲. لنگر جستوجو شده (Searched Anchor): سیستم تمام پیوندهای ممکن را جستوجو میکند. با افزایش گرهها و روابط، حجم جستوجو بهصورت ترکیبی منفجر شده و بیش از حد هزینهبر میشود.
۳. لنگر یادگرفتهشده (Learned Anchor): یک LLM یا مدل Embedding پیوند را فراهم میکند. در این حالت، زیرساخت نمادین صرفاً به یک حافظه موقت (Cache)، تأییدکننده یا بهینهساز برای یک منبع هوش دیگر تبدیل میشود، نه یک زیرساخت مستقل.
آنچه از دیوار جان سالم به در برد
با وجود شکست در ساخت «وزنهای جایگزین»، چندین مؤلفه کاربردی و درس بقا یافتند:
- حلقههای پیامد (Consequence Loops): بهبود تنها از طریق چرخه «تلاش $
ightarrow$ مشاهده $
ightarrow$ تغییر $
ightarrow$ تکرار» رخ میدهد. اسناد و گرافهای استاتیک بدون این بازخورد ضعیف هستند. - حفاظهای قطعی (Deterministic Guards): فیلدهای خاص (شناسهها، تاریخها، مبالغ، نامها، مسیرها، تغییرات وضعیت) باید بهطور صریح استخراج و حفظ شوند و از زیرساختهای مبهم (Fuzzy) دور بمانند.
- داوران دنیا (World Judges): کامپایلرها و بررسیهای اجرایی صادقتر از امتیازات داخلی هستند، زیرا پاسخهای باینری (پاس/فیل) برمیگردانند.
- پرهیز (Abstention) به عنوان یک ویژگی: سیستمی ضعیف که از پاسخ دادن خودداری میکند، مفیدتر از سیستمی است که همیشه انتقال میدهد. در سیستمهای علّی، یک انتقال اشتباه اگر مورد جدید شرط مرزی متفاوتی با الگوی ذخیرهشده داشته باشد، فعالاً مضر است.
- «اندامهای» ارزشمند: حالت مسیر (Route-state)، زخمها (Scars)، روابط تایپشده، حفاظهای تاریخ و پروبهای ارزان-قیمت، مؤلفههای مفیدی هستند، حتی اگر یک مغز کامل را تشکیل ندهند.
این تلاش هشتماهه روی CPU تأکید میکند که چرا هوش مصنوعی نمادین تاریخی در برابر یادگیری عمیق شکست خورد: معیار تناظر باید یاد گرفته شود، نه فرض شود. این نتیجهگیری مانع از تلف کردن چرخههای پردازشی بیشتر روی «ظروف زیباتر» میشود.
آزمونی برای رویکردهای آینده
پس از این شکستها، هر رویکرد جدید باید از سد معیارهای سختگیرانهتری عبور کند. باید بتواند از بازراهاندازی سیستم جان سالم به در ببرد، کنترلهای null/shuffled را شکست دهد، به موارد دیدهنشده تعمیم یابد و در موارد پشتیبانینشده خودداری کند. باید بتواند انتقالهای غیرخطی را مدیریت کرده و فیلدهای دقیق را بهطور مجزا حفظ کند. مهمتر از همه، باید خودِ «انتقال» (Transition) را حمل کند، نه فقط جنبهای از آن را.
برای توسعهدهندگان و معماران کسبوکار، این بدان معناست که یک سیستم نمادین نباید به عنوان جایگزینی برای وزنهای LLM فروخته شود. در عوض، میتواند به عنوان ابزاری برای موارد زیر ارزش واقعی ایجاد کند:
- حافظه ارزانتر برای جلسات طولانی (Long-session memory)
- وضعیت حفظکننده شواهد (Evidence-preserving state)
- حفاظهای قطعی (Deterministic guards)
- اقداماتی که توسط دنیا تأیید شدهاند (World-verified actions)
- امتناع از بازنویسی «زخمهای» شناختهشده
- تولید تست بر اساس پیامدها
- اتوماسیون محدود در اطراف داوران خارجی
رویای اولیه یک زیرساخت تغییرپذیر فقط با CPU بود که مانند وزنهای جایگزین رفتار کند. واقعیت این است که ذخیرهسازی آسان است و تغییر رفتار ممکن، اما «اتصال علّی» همان دیوار است. برای هوشمندانه عمل کردن، یک سیستم باید بداند کدام تجربه قدیمی با وضعیت فعلی متناظر است، کدام انتقال اعمال میشود و کجا شباهت میشکند. با ۲۰۰ آزمایش و بیش از ۳۰ حامل کاندید، نتیجه همچنان این است: بهخاطر سپردن کافی نیست.
گام بعدی شما
- اگر در حال توسعه عاملهای هوش مصنوعی هستید، بهجای تلاش برای جایگزینی وزنها، از سیستمهای نمادین برای ایجاد «حفاظهای قطعی» (Deterministic Guards) استفاده کنید.
- برای مدیریت حافظه طولانیمدت در جلسات پیچیده، از رویکرد «حلقه پیامد» (Try-Observe-Mutate) استفاده کنید تا خطاها به «زخمهای دانشی» تبدیل شوند و تکرار نشوند.
- در طراحی سیستمهای خودکار، کامپایلر یا محیطهای اجرایی را به عنوان «داور نهایی» قرار دهید، نه امتیاز داخلی مدل.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو