فشرده‌سازی ۶ برابری تفکر: مایکروسافت چگونه هزینه استنتاج را کاهش داد؟

آیا می‌توانید استدلال‌های پیچیده را حفظ کنید و همزمان ۸۰ درصد از مصرف پنجره بافت (Context Window) خود را کاهش دهید؟ پاسخ در OpenMementos نهفته است؛ مجموعه‌داده‌ای از مایکروسافت که تعریف ما از «تفکر طولانی‌مدت» در مدل‌ها را تغییر می‌دهد.

به نقل از راهنمای فنی Marktechpost، این سیستم بلوک‌های استدلالی مفصل را با «مومنتوها» یا خلاصه‌های بسیار فشرده جایگزین می‌کند. این رویکرد به مدل اجازه می‌دهد تا جوهره‌ی یک زنجیره منطقی را حفظ کند، اما سربار توکن‌ها را به شدت کاهش دهد.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

بر اساس مستندات پژوهشی این پروژه، معماری OpenMementos بر پایه یک ساختار توکنی خاص برای تفکیک تفکر مفصل از حافظه خلاصه شده است:

بلوک‌های استدلالی (Reasoning Blocks): محصور در تگ‌های <|block_start|> و <|block_end|>.
مومنتوها (Mementos): خلاصه‌های موجز در تگ‌های <|summary_start|> و <|summary_end|>.
بخش‌های تفکر (Thinking Sections): تعریف شده با تگ‌های <think>.

تحلیل‌های فنی نشان می‌دهند که این ساختار می‌تواند به فشرده‌سازی تقریباً ۶ برابری توکن‌ها دست یابد. توسعه‌دهندگان می‌توانند با شبیه‌سازی فشرده‌سازی در زمان استنتاج (Inference)، بلوک‌های استدلالی قدیمی را با مومنتوهای متناظر جایگزین کنند و تنها جدیدترین بلوک‌ها را برای حفظ بافت فوری نگه دارند. این متد اکنون برای تنظیم دقیق (Fine-tuning) نظارت‌شده (SFT) در حوزه‌های ریاضی، کدنویسی و علوم بهینه شده است.

در پوشش پیشین ما از استراتژی‌های مایکروسافت، دیدیم که چگونه این شرکت با فاصله گرفتن از انحصار OpenAI، به دنبال استانداردهای بازتر برای مدل‌های استدلالی است. OpenMementos دقیقاً در همین راستا، تلاشی برای ایجاد چارچوب‌های استدلالی بهینه‌تر و باز است.

با حرکت مدل‌ها به سمت تفکر «سیستم ۲» (System 2)، نبرد بعدی بر سر این است که آیا این فشرده‌سازی می‌تواند به‌صورت پویا و در لحظه، بدون کاهش دقت انجام شود یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی تبدیل داده‌های استدلالی به فرمت‌های چت SFT برای آموزش مدل‌ها.
آزمایش جایگزینی بلوک‌های استدلالی قدیمی با مومنتوها در خط لوله‌های استنتاج.
مطالعه بیشتر درباره تفاوت‌های تفکر سیستم ۱ و سیستم ۲ در مدل‌های زبانی بزرگ.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

بلوک‌های استدلالی (Reasoning Blocks): محصور در تگ‌های <|block_start|> و <|block_end|>.
مومنتوها (Mementos): خلاصه‌های موجز در تگ‌های <|summary_start|> و <|summary_end|>.
بخش‌های تفکر (Thinking Sections): تعریف شده با تگ‌های <think>.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی تبدیل داده‌های استدلالی به فرمت‌های چت SFT برای آموزش مدل‌ها.
آزمایش جایگزینی بلوک‌های استدلالی قدیمی با مومنتوها در خط لوله‌های استنتاج.
مطالعه بیشتر درباره تفاوت‌های تفکر سیستم ۱ و سیستم ۲ در مدل‌های زبانی بزرگ.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فشرده‌سازی ۶ برابری تفکر: مایکروسافت چگونه هزینه استنتاج را کاهش داد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فشرده‌سازی ۶ برابری تفکر: مایکروسافت چگونه هزینه استنتاج را کاهش داد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فشرده‌سازی ۶ برابری تفکر: مایکروسافت چگونه هزینه استنتاج را کاهش داد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فشرده‌سازی ۶ برابری تفکر: مایکروسافت چگونه هزینه استنتاج را کاهش داد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران