توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

پردازش یک فایل PDF با ۴۰ صفحه معمولاً منجر به یک مارپیچ حافظه می‌شود، زیرا KV Cache با هر توکن تولید شده رشد می‌کند. اما شرکت بایدو (Baidu) با معرفی Unlimited OCR، مدلی با ۳ میلیارد پارامتر، این گلوگاه را شکست و پروفیل حافظه را در تمام طول فرآیند تبدیل متن، ثابت نگه داشت.

طبق گزارش منتشر شده، این مدل مکانیزمی را رسمی می‌کند که از «کندی تولید» (generation drag) در سیستم‌های نویسه‌خوانی نوری (OCR) سرتاسری جلوگیری می‌کند. در ساختار توجه چندسر (Multi-Head Attention) استاندارد، حافظه و تأخیر با افزایش طول خروجی به صورت نامحدود رشد می‌کنند. این اندازه به صورت فرمول CMHA(T) = Lm + T تعریف می‌شود که در آن T طول خروجی است. همان‌طور که در تحلیل قبلی ما درباره‌ی قابلیت‌های پردازش بازه بلند بایدو اشاره کردیم، این مدل اکنون با تغییر فرمول محاسباتی، این وابستگی خطی را حذف کرده است. این تلاش برای بهینه‌سازی مصرف حافظه، یادآور راهکارهای دیگری است که در استراتژی‌های کوانتش و مدیریت اپیزودیک برای کاهش ۸ برابری حجم KV Cache مورد بررسی قرار گرفتند تا بهره‌وری مدل‌ها در توالی‌های بلند افزایش یابد.

برای دستیابی به این هدف، بایدو از توجه پنجره لغزان مرجع (Reference Sliding Window Attention یا R-SWA) استفاده کرده است. این روش را می‌توان نوعی «فراموشی نرم» دانست؛ درست مانند کسی که هنگام کپی کردن یک کتاب، به جای بازخوانی تمام صفحات قبلی، فقط به منبع اصلی و چند کلمه آخرِ نوشته‌های خود نگاه می‌کند.

معماری فنی

Unlimited OCR یک مدل ترکیب خبره‌ها (Mixture-of-Experts یا MoE) است. با وجود ۳ میلیارد پارامتر کلی، تنها ۵۰۰ میلیون پارامتر در زمان استنتاج (Inference) فعال هستند که هزینه محاسباتی را پایین می‌آورد. این سامانه از یک DeepEncoder به عنوان موتور فشرده‌سازی استفاده می‌کند که ترکیبی از SAM-ViT تحت توجه پنجره‌ای و CLIP-ViT تحت توجه جهانی است.

مشخصات کلیدی این معماری عبارت است از:

فشرده‌سازی ۱۶ برابری توکن‌ها: یک تصویر PDF با ابعاد ۱۰۲۴x۱۰۲۴ به تنها ۲۵۶ توکن بصری تبدیل می‌شود که باعث کاهش حجم پیش‌پُرکردن (prefill) می‌گردد.
اندازه حافظه پنهان ثابت: حافظه یک صف ثابت است که با مقدار (Lm + n) محدود شده و n به طور پیش‌فرض ۱۲۸ توکن است. فرمول آن به صورت CR-SWA(T) = Lm + min(n, T) ≤ Lm + n تعریف می‌شود.
پنجره زمینه: این مدل از حداکثر ۳۲ هزار توکن پشتیبانی می‌کند.
حالت‌های رزولوشن: مدل دارای دو حالت است: حالت Base با ابعاد ۱۰۲۴x۱۰۲۴ برای اسناد چندصفحه‌ای و حالت Gundam که از رزولوشن پویا برای پردازش تک-صفحه‌ها استفاده می‌کند.

مدل ۳ میلیارد پارامتری OCR نامحدود بایدو با حافظه KV ثابت برای پردازش اسناد طولانی

بنچمارک‌های عملکردی

بر اساس مستندات مقاله پژوهشی (arXiv:2606.23050)، این مدل از صفر آموزش ندیده است. تیم توسعه‌دهنده، مدل را بر پایه یک نقطه بازرسی (checkpoint) از DeepSeek OCR و برای ۴,۰۰۰ گام آموزش تکمیلی داده‌اند. آن‌ها DeepEncoder را منجمد کرده و تنها دکودر را با استفاده از ۲ میلیون نمونه سند روی ۸ خوشه از GPUهای A800 آموزش دادند. داده‌های آموزشی از یک تقسیم‌بندی ۹ به ۱ به نفع داده‌های تک-صفحه‌ای استفاده کردند و نمونه‌های چندصفحه‌ای از طریق الحاق (concatenation) ایجاد شدند.

در محک OmniDocBench v1.5، مدل Unlimited OCR امتیاز ۹۳.۲۳ را کسب کرد و ۶.۲۲ امتیاز بالاتر از مدل پایه DeepSeek OCR قرار گرفت. جزئیات عملکرد در دسته‌های مختلف به شرح زیر است:

ویرایش متن (Text Edit): ۰.۰۳۸ (در برابر ۰.۰۷۳ برای DeepSeek-OCR)
فرمول‌های CDM: ۹۲.۶۱ (در برابر ۸۳.۳۷ برای DeepSeek-OCR)
جداول TEDS: ۹۰.۹۳ (در برابر ۸۴.۹۷ برای DeepSeek-OCR)
ترتیب خواندن (Read-order): ۰.۰۴۵ (در برابر ۰.۰۸۶ برای DeepSeek-OCR)

در نسخه v1.6 این محک، مدل به امتیاز کلی ۹۳.۹۲ رسید که بالاترین امتیاز در مقایسه‌های این مقاله است. همچنین سرعت تولید در حالت Base به ۵,۵۸۰ توکن در ثانیه (TPS) رسید که ۱۲.۷٪ افزایش نسبت به مدل پایه (۴,۹۵۱ TPS) است. این شکاف سرعت زمانی که سقف خروجی به ۶,۰۰۰ توکن می‌رسد، تا ۳۵٪ افزایش می‌یابد.

کاربردهای عملی و پیاده‌سازی

این معماری دقیقاً برای بارهای کاری طراحی شده که سیستم‌های صفحه‌به-صفحه در آن‌ها شکست می‌خورند. کاربردهای اصلی عبارتند از:

تبدیل کامل کتاب‌ها: پردازش بیش از ۴۰ صفحه در یک گذر پیوسته؛ جایی که فاصله ویرایشی زیر ۰.۱۱ باقی می‌ماند و معیار Distinct-35 برابر با ۹۶.۹۰٪ است.
خط لوله استخراج اسناد: استخراج هم‌زمان متن، جداول، فرمول‌ها و ترتیب خواندن در یک گذر رفت (Forward Pass).
پردازش دسته‌ای با توان بالا: استفاده از اسکریپت infer.py برای راه‌اندازی سرور SGLang جهت مدیریت درخواست‌های هم‌زمان روی پوشه‌های PDF.

تحلیل تحریریه

برای متخصصان فنی، این تغییر در واقع جایگزینی یک مشکل رشد خطی با یک مقدار ثابت است. حیاتی‌ترین تغییر این است که R-SWA با توکن‌های بصری به عنوان مراجع دائمی برخورد می‌کند که هرگز دچار به‌روزرسانی حالت (state update) نمی‌شوند. این امر از پدیده «تاری تدریجی» (progressive blurring) که در مدل‌های توجه خطی دیده می‌شود، جلوگیری می‌کند.

این ویژگی Unlimited OCR را برای پردازش دسته‌ای با توان بالا از کتاب‌های کامل یا آرشیوهای پیچیده شرکتی منحصر‌به‌فرد می‌کند. با تثبیت تأخیر، بایدو محدودیت اصلی را از «رشد حافظه» به «زمان پیش‌پُرکردن اولیه» تغییر داده است؛ زمانی که همچنان با افزایش تعداد صفحات رشد می‌کند.

با وجود این نقاط قوت، مدل به معنای واقعی کلمه «نامحدود» نیست؛ بلکه همچنان توسط پنجره زمینه ۳۲ هزار توکنی محدود شده است. علاوه بر این، اجرای چندصفحه‌ای به حالت Base وابسته است، به این معنی که ممکن است متون بسیار ریز نادیده گرفته شوند.

کاربران در حال حاضر می‌توانند مدل را از طریق کتابخانه Transformers با فعال کردن trust_remote_code=True مستقر کنند یا آن را به عنوان یک API سازگار با OpenAI با استفاده از سرور SGLang و بک‌اِند توجه fa3 اجرا نمایند. باید منتظر ماند و دید آیا مکانیزم R-SWA به سایر وظایف توالی-به-توالی مانند بازشناسی خودکار گفتار (ASR) یا ترجمه‌های طولانی منتقل می‌شود یا خیر، زیرا پژوهشگران ادعا می‌کنند که این یک توجه پارس‌کننده‌ی همه‌منظوره است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری فنی

مشخصات کلیدی این معماری عبارت است از:

فشرده‌سازی ۱۶ برابری توکن‌ها: یک تصویر PDF با ابعاد ۱۰۲۴x۱۰۲۴ به تنها ۲۵۶ توکن بصری تبدیل می‌شود که باعث کاهش حجم پیش‌پُرکردن (prefill) می‌گردد.
اندازه حافظه پنهان ثابت: حافظه یک صف ثابت است که با مقدار (Lm + n) محدود شده و n به طور پیش‌فرض ۱۲۸ توکن است. فرمول آن به صورت CR-SWA(T) = Lm + min(n, T) ≤ Lm + n تعریف می‌شود.
پنجره زمینه: این مدل از حداکثر ۳۲ هزار توکن پشتیبانی می‌کند.
حالت‌های رزولوشن: مدل دارای دو حالت است: حالت Base با ابعاد ۱۰۲۴x۱۰۲۴ برای اسناد چندصفحه‌ای و حالت Gundam که از رزولوشن پویا برای پردازش تک-صفحه‌ها استفاده می‌کند.

مدل ۳ میلیارد پارامتری OCR نامحدود بایدو با حافظه KV ثابت برای پردازش اسناد طولانی

بنچمارک‌های عملکردی

ویرایش متن (Text Edit): ۰.۰۳۸ (در برابر ۰.۰۷۳ برای DeepSeek-OCR)
فرمول‌های CDM: ۹۲.۶۱ (در برابر ۸۳.۳۷ برای DeepSeek-OCR)
جداول TEDS: ۹۰.۹۳ (در برابر ۸۴.۹۷ برای DeepSeek-OCR)
ترتیب خواندن (Read-order): ۰.۰۴۵ (در برابر ۰.۰۸۶ برای DeepSeek-OCR)

کاربردهای عملی و پیاده‌سازی

تبدیل کامل کتاب‌ها: پردازش بیش از ۴۰ صفحه در یک گذر پیوسته؛ جایی که فاصله ویرایشی زیر ۰.۱۱ باقی می‌ماند و معیار Distinct-35 برابر با ۹۶.۹۰٪ است.
خط لوله استخراج اسناد: استخراج هم‌زمان متن، جداول، فرمول‌ها و ترتیب خواندن در یک گذر رفت (Forward Pass).
پردازش دسته‌ای با توان بالا: استفاده از اسکریپت infer.py برای راه‌اندازی سرور SGLang جهت مدیریت درخواست‌های هم‌زمان روی پوشه‌های PDF.

تحلیل تحریریه

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

معماری فنی

بنچمارک‌های عملکردی

کاربردهای عملی و پیاده‌سازی

تحلیل تحریریه

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

معماری فنی

بنچمارک‌های عملکردی

کاربردهای عملی و پیاده‌سازی

تحلیل تحریریه

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

معماری فنی

بنچمارک‌های عملکردی

کاربردهای عملی و پیاده‌سازی

تحلیل تحریریه

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

معماری فنی

بنچمارک‌های عملکردی

کاربردهای عملی و پیاده‌سازی

تحلیل تحریریه

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران