اگر عاملهای هوش مصنوعی شما به محض پایان یک جلسه، کاربر را فراموش میکنند، مشکل از پنجرهٔ متنی نیست؛ بلکه معماری حافظه است. تصور کنید هر بار با یک کارمند باسابقه صحبت میکنید که هر ۱۰ دقیقه تمام سوابق شما را پاک میکند؛ این دقیقاً همان مشکلی است که توسعهدهندگان با مدلهای زبانی روبرو هستند.
برای حل این چالش، ابزار Mnemo وارد میشود. این سیستم یک لایهی حافظه محلی ایجاد میکند تا مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — بتواند اطلاعات کاربر را بهطور دائمی ذخیره کند. همانطور که در تحلیل قبلی ما دربارهی مدلهای تخصصی مانند GPT-Rosalind اشاره کردیم، تخصص در یک حوزه عالی است، اما مدیریت وضعیت کاربر در طول زمان نیازمند ساختاری فراتر از حافظهٔ موقت است.
بر اساس مستندات گیتهاب منتشرشده در ۳ ژوئن ۲۰۲۶، این سیستم از یک خط لولهی ۶ مرحلهای برای بازیابی اطلاعات استفاده میکند. این فرآیند شامل جستوجوی تمام-متن، شناسایی موجودیتها و گسترش گراف از طریق کتابخانه petgraph است. طبق گزارشهای فنی، کل این معماری روی SQLite اجرا میشود که منجر به سرعت خیرهکنندهای شده است. بنچمارکهای انجامشده روی تراشه Apple M2 نشان میدهد که میانگین زمان بازیابی دادهها تنها ۴.۲ میلیثانیه است.
این رویکرد «محلی-اول» (Local-first) نیاز به پنجرههای متنی غولپیکر را کاهش میدهد. پنجرههای متنی بزرگ معمولاً باعث کاهش دقت مدل و افزایش هزینه میشوند. با Mnemo، هوشمندیِ حافظه از داخل پرامپت خارج شده و به یک پایگاه داده ساختاریافته منتقل میشود. این یعنی توکنهای ارزانتر و پاسخهای سریعتر برای کاربر نهایی.
گام بعدی شما
- اگر از Ollama استفاده میکنید، Mnemo را از طریق Docker مستقر کنید تا حافظه محلی به مدلهای شما اضافه شود.
- برای توسعه اپلیکیشنهای پیچیده، SDK پایتون این ابزار را برای مدیریت پروفایلهای بلندمدت کاربران بررسی کنید.
- عملکرد مدل خود را پیش و پس از اضافه کردن لایه حافظه از نظر نرخ «توهم» بسنجید.
اما تأثیر این سرعت استثنایی بر سختافزارهای لبهای، بحثی جداست؛ تحلیل ما دربارهی رایانش لبه را بخوانید.



گفتگو