ترفندی از دهه ۹۰ که مشکل سرریز حافظه مدل‌های زبانی را حل کرد

پرامپت عامل شما احتمالاً یک جعبه سیاه است که دیگر نمی‌توانید دلیل پاسخ‌هایش را توضیح دهید. اگر هنوز برای مدیریت بافتار از الحاق ساده متون استفاده می‌کنید، در حال تخریب قابلیت ردیابی سیستم خود هستید.

در ۴ مه ۲۰۲۶، پروژه LLM386 نسخه ۱.۰.۰-آلفای خود را منتشر کرد تا منطق مدیریت حافظه سیستم‌عامل DOS در دهه ۹۰ را به پنجره‌های بافتار مدرن پیوند بزند. به نقل از گزارش dev.to، این سیستم از معماری EMM386 تقلید می‌کند؛ ابزاری که در گذشته برای مدیریت فضاهای حافظه بزرگ از طریق یک پنجره کوچک ۶۴۰ کیلوبایتی استفاده می‌شد. LLM386 مدل زبانی بزرگ (Large Language Model) را به عنوان یک تابع خالص و بدون وضعیت (Stateless) می‌بیند و برای هر فراخوانی، پرامپت را بر اساس بودجه ورودی مدل، از یک ذخیره‌ساز پایدار بازسازی می‌کند.

Cover image for LLM386: borrowing a 1990s idea for managing LLM context

بر اساس مستندات این پروژه، برای تضمین قطعیت (Determinism) در این فرآیند، چهار مؤلفه حیاتی پیاده‌سازی شده است:

ذخیره‌ساز بلوکی پایدار (Persistent Block Store): یک مخزن با آدرس‌دهی محتوایی و حذف داده‌های تکراری که از LMDB استفاده می‌کند.
صفحه‌بند قطعی (Deterministic Pager): اجرای موازی بازیابی‌کننده‌ها (مانند BM25 و ANN) برای انتخاب بلوک‌هایی که در بودجه توکن‌ها جای می‌گیرند.
ردیاب (Tracer): ثبت دقیق آنچه مدل دیده است، با استفاده از هش‌های بایت-محور برای بازپخش کامل (Replay) سناریوها.
گراف لبه‌تایپ‌شده (Typed-Edge Graph): تضمین اینکه نتایج ابزارها دقیقاً با پیام‌های دستیاری که آن‌ها را فعال کرده‌اند، جفت شوند.

این سیستم که به عنوان یک کتابخانه Rust با SDK پایتون (از طریق PyO3) توسعه یافته، عمداً از اجزای یادگیرنده در مسیر اصلی (Hot Path) استفاده نمی‌کند تا از رفتارهای غیرقطعی جلوگیری کند. این معماری به توسعه‌دهندگان اجازه می‌دهد بدون بازنویسی منطق اسمبل پرامپت، مدل‌ها را از طریق یک انتزاع به نام ModelProfile جایگزین کنند.

همان‌طور که در تحلیل قبلی ما درباره‌ی Burnless و تمرکز آن بر کاهش هزینه‌های مکالمات چندمرحله‌ای اشاره کردیم، LLM386 اکنون تمرکز را به سمت یکپارچگی ساختاری و مشاهده‌پذیری (Observability) خودِ پرامپت تغییر می‌دهد. این ابزار به‌طور خاص برای عامل‌های (Agents) پیچیده‌ای طراحی شده که در آن‌ها، استدلال درباره وضعیت فعلی مدل به یک گلوگاه اصلی تبدیل شده است.

در حالی که پنجره‌های بافتار به سمت میلیون‌ها توکن پیش می‌روند، صنعت باید تصمیم بگیرد که آیا صفحه‌بندی قطعی یا مدل‌های بومی با بافتار طولانی، برنده نهایی جنگ حافظه خواهند بود.

اما این تنها بخشی از نبرد حافظه است؛ اثر این رویکرد بر سخت‌افزارهای استنتاج را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

نسخه آلفای LLM386 را برای بررسی میزان قطعیت پاسخ‌های عامل‌های خود تست کنید.
سیستم‌های فعلی خود را از نظر «قابلیت بازپخش» (Replayability) بازبینی کنید تا نقاط کور را بیابید.
استراتژی‌های بازیابی (Retrieval) خود را با متدهای BM25 و ANN در یک صفحه‌بند موازی ترکیب کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Cover image for LLM386: borrowing a 1990s idea for managing LLM context

بر اساس مستندات این پروژه، برای تضمین قطعیت (Determinism) در این فرآیند، چهار مؤلفه حیاتی پیاده‌سازی شده است:

ذخیره‌ساز بلوکی پایدار (Persistent Block Store): یک مخزن با آدرس‌دهی محتوایی و حذف داده‌های تکراری که از LMDB استفاده می‌کند.
صفحه‌بند قطعی (Deterministic Pager): اجرای موازی بازیابی‌کننده‌ها (مانند BM25 و ANN) برای انتخاب بلوک‌هایی که در بودجه توکن‌ها جای می‌گیرند.
ردیاب (Tracer): ثبت دقیق آنچه مدل دیده است، با استفاده از هش‌های بایت-محور برای بازپخش کامل (Replay) سناریوها.
گراف لبه‌تایپ‌شده (Typed-Edge Graph): تضمین اینکه نتایج ابزارها دقیقاً با پیام‌های دستیاری که آن‌ها را فعال کرده‌اند، جفت شوند.

اما این تنها بخشی از نبرد حافظه است؛ اثر این رویکرد بر سخت‌افزارهای استنتاج را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

نسخه آلفای LLM386 را برای بررسی میزان قطعیت پاسخ‌های عامل‌های خود تست کنید.
سیستم‌های فعلی خود را از نظر «قابلیت بازپخش» (Replayability) بازبینی کنید تا نقاط کور را بیابید.
استراتژی‌های بازیابی (Retrieval) خود را با متدهای BM25 و ANN در یک صفحه‌بند موازی ترکیب کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترفندی از دهه ۹۰ که مشکل سرریز حافظه مدل‌های زبانی را حل کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترفندی از دهه ۹۰ که مشکل سرریز حافظه مدل‌های زبانی را حل کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترفندی از دهه ۹۰ که مشکل سرریز حافظه مدل‌های زبانی را حل کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترفندی از دهه ۹۰ که مشکل سرریز حافظه مدل‌های زبانی را حل کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران