اگر در حال طراحی عاملهای هوش مصنوعی هستید که باید هفتهها اطلاعات کاربر را به خاطر بسپارند، وسواس صنعت روی پنجرههای متنی غولپیکر یک اشتباه هزینهبر است. شما باید بدانید که افزایش حجم ورودی، لزوماً به معنای یادآوری بهتر نیست.
بسیاری از توسعهدهندگان اکنون از مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — استفاده میکنند. آنها برای ایجاد حافظه، سعی میکنند دادههای بیشتری را در پنجره متنی (Context Window) بگنجانند؛ یعنی همان میز کاری که جا برای چند ورق دارد، نه برای کل کتابخانه. همانطور که در تحلیل قبلی ما دربارهی چالشهای توهم در مدلهای زبانی اشاره کردیم، این روش «زور خالص» است و باعث افزایش هزینهها و کاهش دقت میشود.
طبق اعلام Backboard در ۶ ژوئن ۲۰۲۶، راهکار جایگزین، تبدیل حافظه به «حقایق مجزا» به جای یک پنجره لغزان از متن است. این سیستم برای اثبات ادعات خود، دو بنچمارک آکادمیک را هدف قرار داده است:
- LoCoMo: سنجش استدلال و یادآوری در گفتگوهایی که هفتهها ادامه دارند.
- LongMemEval: ارزیابی توانایی بهروزرسانی دانش (تشخیص تغییر وضعیت کاربر) و همچنین «خودداری» یا دانستن اینکه مدل کجا جواب را نمیداند.
بر اساس مستندات این شرکت، دستیاران تجاری و مدلهای با پنجره متنی بلند، در حافظههای مستمر حدود ۳۰٪ از دقت خود را از دست میدهند. Backboard با استخراج حقایق در سطح هر پیام و بازیابی آنها فقط در زمان نیاز، این مشکل را حل کرده است.

این تغییر، مرکز هوشمندی حافظه را از مکانیسم توجه مدل به معماری سیستم منتقل میکند. برای توسعهدهندگان، این یعنی هزینه کمتر برای توکنها و قابلیت اطمینان بیشتر. در واقع، حافظه از یک مسئلهی پردازشی به یک مسئلهی «مدیریت وضعیت» تبدیل میشود.
گام بعدی شما
- اگر از SDK شرکت Backboard استفاده میکنید، پارامتر
memory="Auto"را فعال کنید. - دقت بازخوانی حقایق را در مقایسه با روشهای سنتی تولید بازیابیافزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند — بسنجید.
- بررسی کنید که آیا مدل شما در شناسایی تغییرات وضعیت کاربر (Knowledge Updates) بهبود یافته است یا خیر.
اما اثر این معماری بر هزینه استنتاج در مقیاس میلیونها کاربر حتی جذابتر است؛ به تحلیل ما دربارهی بهینهسازی GPU مراجعه کنید.

گفتگو