Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

اگر عامل‌های هوش مصنوعی شما به محض پایان یک جلسه، کاربر را فراموش می‌کنند، مشکل از پنجرهٔ متنی نیست؛ بلکه معماری حافظه است. تصور کنید هر بار با یک کارمند باسابقه صحبت می‌کنید که هر ۱۰ دقیقه تمام سوابق شما را پاک می‌کند؛ این دقیقاً همان مشکلی است که توسعه‌دهندگان با مدل‌های زبانی روبرو هستند.

برای حل این چالش، ابزار Mnemo وارد می‌شود. این سیستم یک لایه‌ی حافظه محلی ایجاد می‌کند تا مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — بتواند اطلاعات کاربر را به‌طور دائمی ذخیره کند. همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های تخصصی مانند GPT-Rosalind اشاره کردیم، تخصص در یک حوزه عالی است، اما مدیریت وضعیت کاربر در طول زمان نیازمند ساختاری فراتر از حافظهٔ موقت است.

بر اساس مستندات گیت‌هاب منتشرشده در ۳ ژوئن ۲۰۲۶، این سیستم از یک خط لوله‌ی ۶ مرحله‌ای برای بازیابی اطلاعات استفاده می‌کند. این فرآیند شامل جست‌وجوی تمام-متن، شناسایی موجودیت‌ها و گسترش گراف از طریق کتابخانه petgraph است. طبق گزارش‌های فنی، کل این معماری روی SQLite اجرا می‌شود که منجر به سرعت خیره‌کننده‌ای شده است. بنچمارک‌های انجام‌شده روی تراشه Apple M2 نشان می‌دهد که میانگین زمان بازیابی داده‌ها تنها ۴.۲ میلی‌ثانیه است.

این رویکرد «محلی-اول» (Local-first) نیاز به پنجره‌های متنی غول‌پیکر را کاهش می‌دهد. پنجره‌های متنی بزرگ معمولاً باعث کاهش دقت مدل و افزایش هزینه می‌شوند. با Mnemo، هوشمندیِ حافظه از داخل پرامپت خارج شده و به یک پایگاه داده ساختاریافته منتقل می‌شود. این یعنی توکن‌های ارزان‌تر و پاسخ‌های سریع‌تر برای کاربر نهایی.

گام بعدی شما

اگر از Ollama استفاده می‌کنید، Mnemo را از طریق Docker مستقر کنید تا حافظه محلی به مدل‌های شما اضافه شود.
برای توسعه اپلیکیشن‌های پیچیده، SDK پایتون این ابزار را برای مدیریت پروفایل‌های بلندمدت کاربران بررسی کنید.
عملکرد مدل خود را پیش و پس از اضافه کردن لایه حافظه از نظر نرخ «توهم» بسنجید.

اما تأثیر این سرعت استثنایی بر سخت‌افزارهای لبه‌ای، بحثی جداست؛ تحلیل ما درباره‌ی رایانش لبه را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گام بعدی شما

اگر از Ollama استفاده می‌کنید، Mnemo را از طریق Docker مستقر کنید تا حافظه محلی به مدل‌های شما اضافه شود.
برای توسعه اپلیکیشن‌های پیچیده، SDK پایتون این ابزار را برای مدیریت پروفایل‌های بلندمدت کاربران بررسی کنید.
عملکرد مدل خود را پیش و پس از اضافه کردن لایه حافظه از نظر نرخ «توهم» بسنجید.

اما تأثیر این سرعت استثنایی بر سخت‌افزارهای لبه‌ای، بحثی جداست؛ تحلیل ما درباره‌ی رایانش لبه را بخوانید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران