مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

تصور کنید یک گزارش سالانه ۵۰ صفحه‌ای دارید و مجبورید آن را به تکه‌های کوچک تقسیم کنید تا هوش مصنوعی رشته کلام را گم نکند. شرکت بایدو (Baidu) در ۲۳ ژوئن ۲۰۲۶ با معرفی Unlimited-OCR این دشواری را به پایان رساند؛ مدلی که برای «پردازش یک‌مرحله‌ای افق‌های بلند» (one-shot long-horizon parsing) طراحی شده تا اسناد حجیم را بدون از دست دادن انسجام ساختاری تحلیل کند.

بیشتر ابزارهای نویسه‌خوانی نوری (OCR) در مدیریت وظایف «افق بلند» — یعنی توانایی حفظ درک ثابت از چیدمان یک سند در طول صفحات متعدد — دچار مشکل می‌شوند. شبیه به کسی که سعی می‌کند یک کتاب را از روی تکه‌های پاره‌پاره بخواند و هر بار صفحه قبلی را فراموش کند. در حالی که نسخه‌های قبلی مانند Deepseek-OCR زیربنای این مسیر را ایجاد کردند، هدف این نسخه جدید گسترش این مرزهاست تا مدل بتواند پنجره‌های زمینه عظیم را در یک جریان استنتاج واحد مدیریت کند.

زمینه پروژه

این پروژه به‌طور رسمی در ۲۳ ژوئن ۲۰۲۶ منتشر شد و مقاله پژوهشی همراه آن در arXiv در دسترس قرار گرفت. برای حمایت از جامعه توسعه‌دهندگان، این مدل در ۲۲ ژوئن ۲۰۲۶ با ModelScope ادغام شد.

این تلاش بر پایه بنیادهای چندین پیش‌رو کلیدی بنا شده است. تیم توسعه‌دهنده صراحتاً از تأثیرات و ایده‌های ارزشمند ارائه شده توسط مدل‌های Deepseek-OCR، Deepseek-OCR-2 و PaddleOCR قدردانی کرده است.

سیستم OCR نامحدود بایدو: عصر تحلیل یک‌مرحله‌ای متون بلند و پیچیده آغاز شده است.

بر اساس مخزن گیت‌هاب پروژه، این مدل دو پیکربندی اصلی برای تصاویر تک‌صفحه پشتیبانی می‌کند: حالت «gundam» (که از اندازه تصویر ۶۴۰ پیکسل با قابلیت برش و اندازه پایه ۱۰۲۴ استفاده می‌کند) و حالت «base» (که از اندازه کامل ۱۰۲۴ پیکسل با غیرفعال کردن حالت برش استفاده می‌کند). برای اسناد چندصفحه‌ای و فایل‌های PDF، سیستم به‌طور پیش‌فرض از پیکربندی پایه ۱۰۲۴ پیکسل استفاده می‌کند تا حداکثر جزئیات حفظ شود.

جزئیات فنی

مشخصات فنی برای استقرار این مدل عبارت است از:

طول زمینه: پشتیبانی تا ۳۲,۷۶۸ توکن (Token) — تکه‌های کوچکی از متن که مدل آن‌ها را پردازش می‌کند.
سخت‌افزار: تست شده روی GPUهای انویدیا با CUDA ۱۲.۹ و پایتون ۳.۱۲.۳.
وابستگی‌های اصلی: اتکا به torch ۲.۱۰.۰، torchvision ۰.۲۵.۰، transformers ۴.۵۷.۱ و Pillow ۱۲.۱.۱.
کتابخانه‌های کمکی: استفاده از matplotlib ۳.۱۰.۸، einops ۰.۸.۲، addict ۲.۴.۰، easydict ۱.۱۳ و psutil ۷.۲.۲.
پردازش PDF: استفاده از PyMuPDF ۱.۲۷.۲.۲ برای تبدیل صفحات PDF به تصویر با رزولوشن ۳۰۰ DPI.
بک‌اِند استنتاج: سازگار با Hugging Face transformers و سرور SGLang برای استریم با کارایی بالا از طریق یک API سازگار با OpenAI.

برای جلوگیری از حلقه‌های تکراری متن که در OCRهای طولانی رایج است، بایدو یک پردازشگر لاجیت (Logit Processor) سفارشی پیاده‌سازی کرده است. ابزار DeepseekOCRNoRepeatNGramLogitProcessor از اندازه ngram برابر با ۳۵ و پنجره‌ای ۱۲۸ توکنی برای تصاویر تک‌صفحه، یا تا ۱,۰۲۴ توکن برای اسناد چندصفحه‌ای استفاده می‌کند تا تضمین شود خروجی در توالی‌های طولانی، روان و مستند باقی می‌ماند.

برای توسعه‌دهندگان، این مدل هم در Hugging Face و هم در جامعه ModelScope در دسترس است. مدل را می‌توان به صورت یک اسکریپت مستقل یا به عنوان یک سرور با استفاده از SGLang مستقر کرد. برای بهینه‌سازی حافظه و سرعت، استفاده از بک‌اِند توجه fa3 با اندازه صفحه ۱ و کسر حافظه استاتیک ۰.۸ توصیه می‌شود.

این چرخش به سمت پردازش افق بلند یعنی کاربران دیگر نیازی به ساخت خط لوله‌های پیچیده برای تکه‌بندی (Chunking) — یعنی بریدن متن به قطعات کوچک برای جا دادن در حافظه مدل — برای پردازش گزارش‌های سالانه شرکتی یا قراردادهای حقوقی ندارند. با treating کردن یک PDF چندصفحه‌ای به عنوان یک توالی پیوسته واحد، مدل می‌تواند جداولی که در چندین صفحه پخش شده‌اند یا سرتیترهایی که کل یک بخش را پوشش می‌دهند، به‌طور بهتری درک کند.

برای یک متخصص، این یعنی کاهش شدید «شکاف توهم» (hallucination gap)؛ حالتی که در آن هوش مصنوعی وقتی به صفحه دهم می‌رسد، محتوای بالای صفحه اول را فراموش می‌کند. در واقع OCR از یک ابزار ساده استخراج متن به یک موتور درک ساختاری تبدیل شده است.

این عرضه نشان‌دهنده حرکت به سمت هوش مصنوعی «سند-محور» (document-native) است؛ جایی که مدل کل فایل را به عنوان یک شیء واحد می‌بیند، نه مجموعه‌ای از تصاویر جداگانه. این امر به‌طور مؤثری سد فنی برای اتوماسیون دیجیتال‌سازی اسناد با حجم بالا را کاهش می‌دهد.

توسعه‌دهندگان اکنون می‌توانند با فراخوانی baidu/Unlimited-OCR از Hugging Face و پیاده‌سازی پیکربندی سرور SGLang برای دستیابی به توان عملیاتی در سطح تولید، از جمله استنتاج دسته‌ای (batch inference) از طریق infer.py با تنظیمات همزمانی قابل تغییر، مدل را آزمایش کنند.

گام بعدی شما

اگر با اسناد حقوقی یا گزارش‌های مالی حجیم سروکار دارید، مدل Unlimited-OCR را جایگزین خط لوله‌های تکه‌بندی قدیمی کنید.
برای استقرار در محیط تولید، از بک‌اِند fa3 در SGLang استفاده کنید تا مصرف حافظه بهینه شود.
دقت مدل را در بازشناسی جداول چندصفحه‌ای با مدل‌های تک‌صفحه‌ای مقایسه کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه پروژه

سیستم OCR نامحدود بایدو: عصر تحلیل یک‌مرحله‌ای متون بلند و پیچیده آغاز شده است.

جزئیات فنی

مشخصات فنی برای استقرار این مدل عبارت است از:

طول زمینه: پشتیبانی تا ۳۲,۷۶۸ توکن (Token) — تکه‌های کوچکی از متن که مدل آن‌ها را پردازش می‌کند.
سخت‌افزار: تست شده روی GPUهای انویدیا با CUDA ۱۲.۹ و پایتون ۳.۱۲.۳.
وابستگی‌های اصلی: اتکا به torch ۲.۱۰.۰، torchvision ۰.۲۵.۰، transformers ۴.۵۷.۱ و Pillow ۱۲.۱.۱.
کتابخانه‌های کمکی: استفاده از matplotlib ۳.۱۰.۸، einops ۰.۸.۲، addict ۲.۴.۰، easydict ۱.۱۳ و psutil ۷.۲.۲.
پردازش PDF: استفاده از PyMuPDF ۱.۲۷.۲.۲ برای تبدیل صفحات PDF به تصویر با رزولوشن ۳۰۰ DPI.
بک‌اِند استنتاج: سازگار با Hugging Face transformers و سرور SGLang برای استریم با کارایی بالا از طریق یک API سازگار با OpenAI.

گام بعدی شما

اگر با اسناد حقوقی یا گزارش‌های مالی حجیم سروکار دارید، مدل Unlimited-OCR را جایگزین خط لوله‌های تکه‌بندی قدیمی کنید.
برای استقرار در محیط تولید، از بک‌اِند fa3 در SGLang استفاده کنید تا مصرف حافظه بهینه شود.
دقت مدل را در بازشناسی جداول چندصفحه‌ای با مدل‌های تک‌صفحه‌ای مقایسه کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

زمینه پروژه

جزئیات فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

زمینه پروژه

جزئیات فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

زمینه پروژه

جزئیات فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

زمینه پروژه

جزئیات فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران