GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

Mnemo: پیاده‌سازی حافظه بلندمدت با سرعت ۴.۲ میلی‌ثانیه برای عامل‌های هوش مصنوعی

·۱۴ خرداد ۱۴۰۵۵ دقیقه مطالعه
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

دستیابی به سرعت بازیابی ۴.۲ میلی‌ثانیه‌ای با استفاده از یک گراف دانشی محلی روی SQLite؛ این یعنی انتقال حافظه از لایهٔ متنی (Prompt) به لایهٔ دیتابیس بدون ایجاد تأخیر محسوس در پاسخ مدل.

اگر عامل‌های هوش مصنوعی شما به محض پایان یک جلسه، کاربر را فراموش می‌کنند، مشکل از پنجرهٔ متنی نیست؛ بلکه معماری حافظه است. تصور کنید هر بار با یک کارمند باسابقه صحبت می‌کنید که هر ۱۰ دقیقه تمام سوابق شما را پاک می‌کند؛ این دقیقاً همان مشکلی است که توسعه‌دهندگان با مدل‌های زبانی روبرو هستند.

برای حل این چالش، ابزار Mnemo وارد می‌شود. این سیستم یک لایه‌ی حافظه محلی ایجاد می‌کند تا مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — بتواند اطلاعات کاربر را به‌طور دائمی ذخیره کند. همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های تخصصی مانند GPT-Rosalind اشاره کردیم، تخصص در یک حوزه عالی است، اما مدیریت وضعیت کاربر در طول زمان نیازمند ساختاری فراتر از حافظهٔ موقت است.

بر اساس مستندات گیت‌هاب منتشرشده در ۳ ژوئن ۲۰۲۶، این سیستم از یک خط لوله‌ی ۶ مرحله‌ای برای بازیابی اطلاعات استفاده می‌کند. این فرآیند شامل جست‌وجوی تمام-متن، شناسایی موجودیت‌ها و گسترش گراف از طریق کتابخانه petgraph است. طبق گزارش‌های فنی، کل این معماری روی SQLite اجرا می‌شود که منجر به سرعت خیره‌کننده‌ای شده است. بنچمارک‌های انجام‌شده روی تراشه Apple M2 نشان می‌دهد که میانگین زمان بازیابی داده‌ها تنها ۴.۲ میلی‌ثانیه است.

این رویکرد «محلی-اول» (Local-first) نیاز به پنجره‌های متنی غول‌پیکر را کاهش می‌دهد. پنجره‌های متنی بزرگ معمولاً باعث کاهش دقت مدل و افزایش هزینه می‌شوند. با Mnemo، هوشمندیِ حافظه از داخل پرامپت خارج شده و به یک پایگاه داده ساختاریافته منتقل می‌شود. این یعنی توکن‌های ارزان‌تر و پاسخ‌های سریع‌تر برای کاربر نهایی.

گام بعدی شما

  • اگر از Ollama استفاده می‌کنید، Mnemo را از طریق Docker مستقر کنید تا حافظه محلی به مدل‌های شما اضافه شود.
  • برای توسعه اپلیکیشن‌های پیچیده، SDK پایتون این ابزار را برای مدیریت پروفایل‌های بلندمدت کاربران بررسی کنید.
  • عملکرد مدل خود را پیش و پس از اضافه کردن لایه حافظه از نظر نرخ «توهم» بسنجید.

اما تأثیر این سرعت استثنایی بر سخت‌افزارهای لبه‌ای، بحثی جداست؛ تحلیل ما درباره‌ی رایانش لبه را بخوانید.

چرا این موضوع مهم است؟

این فناوری با کاهش وابستگی به پنجره‌های متنی بزرگ، هزینه‌های عملیاتی استنتاج را به‌طور چشم‌گیر کاهش می‌دهد. تکیه بر SQLite برای مدیریت حافظه، استاندارد جدیدی از دسترسی سریع و ارزان به داده‌های کاربر را برای شرکت‌های نرم‌افزاری تعریف می‌کند.

تأثیر برای ایران

به‌دلیل ماهیت متن‌باز و سازگاری با Ollama، توسعه‌دهندگان ایرانی می‌توانند بدون نیاز به APIهای محدودشده، حافظه بلندمدت را به مدل‌های محلی خود اضافه کنند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که Mnemo در واقع در حال جابه‌جایی مرکز ثقل «هوش» از مدل به زیرساخت است. به جای تلاش برای بزرگ‌تر کردن حافظهٔ کوتاه‌مدت مدل (Context Window)، این ابزار یک حافظهٔ خارجی ساختاریافته می‌سازد. این روند سیگنالی است از اینکه آینده‌ی عامل‌های هوش مصنوعی نه در مدل‌های بزرگ‌تر، بلکه در مدیریت بهینه داده‌های پیرامون مدل است.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه