آیا میتوانید استدلالهای پیچیده را حفظ کنید و همزمان ۸۰ درصد از مصرف پنجره بافت (Context Window) خود را کاهش دهید؟ پاسخ در OpenMementos نهفته است؛ مجموعهدادهای از مایکروسافت که تعریف ما از «تفکر طولانیمدت» در مدلها را تغییر میدهد.
به نقل از راهنمای فنی Marktechpost، این سیستم بلوکهای استدلالی مفصل را با «مومنتوها» یا خلاصههای بسیار فشرده جایگزین میکند. این رویکرد به مدل اجازه میدهد تا جوهرهی یک زنجیره منطقی را حفظ کند، اما سربار توکنها را به شدت کاهش دهد.

بر اساس مستندات پژوهشی این پروژه، معماری OpenMementos بر پایه یک ساختار توکنی خاص برای تفکیک تفکر مفصل از حافظه خلاصه شده است:
- بلوکهای استدلالی (Reasoning Blocks): محصور در تگهای
<|block_start|>و<|block_end|>. - مومنتوها (Mementos): خلاصههای موجز در تگهای
<|summary_start|>و<|summary_end|>. - بخشهای تفکر (Thinking Sections): تعریف شده با تگهای
<think>.
تحلیلهای فنی نشان میدهند که این ساختار میتواند به فشردهسازی تقریباً ۶ برابری توکنها دست یابد. توسعهدهندگان میتوانند با شبیهسازی فشردهسازی در زمان استنتاج (Inference)، بلوکهای استدلالی قدیمی را با مومنتوهای متناظر جایگزین کنند و تنها جدیدترین بلوکها را برای حفظ بافت فوری نگه دارند. این متد اکنون برای تنظیم دقیق (Fine-tuning) نظارتشده (SFT) در حوزههای ریاضی، کدنویسی و علوم بهینه شده است.
در پوشش پیشین ما از استراتژیهای مایکروسافت، دیدیم که چگونه این شرکت با فاصله گرفتن از انحصار OpenAI، به دنبال استانداردهای بازتر برای مدلهای استدلالی است. OpenMementos دقیقاً در همین راستا، تلاشی برای ایجاد چارچوبهای استدلالی بهینهتر و باز است.
با حرکت مدلها به سمت تفکر «سیستم ۲» (System 2)، نبرد بعدی بر سر این است که آیا این فشردهسازی میتواند بهصورت پویا و در لحظه، بدون کاهش دقت انجام شود یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بررسی تبدیل دادههای استدلالی به فرمتهای چت SFT برای آموزش مدلها.
- آزمایش جایگزینی بلوکهای استدلالی قدیمی با مومنتوها در خط لولههای استنتاج.
- مطالعه بیشتر درباره تفاوتهای تفکر سیستم ۱ و سیستم ۲ در مدلهای زبانی بزرگ.




گفتگو