مدل Mistral OCR 4 با نرخ برد ۷۲ درصدی رقبای مستندات را شکست داد

اگر امروز برای استخراج داده از اسناد پیچیده هزینه می‌کنید، احتمالاً با مشکل «تکه تکه شدن» اطلاعات در سیستم‌های بازیابی مواجه هستید. مدل Mistral OCR 4 دقیقاً برای حل همین گره کور آمده است تا اسناد را نه فقط بخواند، بلکه آن‌ها را نقشه‌برداری کند. این موتور جدید استخراج، در ارزیابی‌های رودرروی انسانی، نرخ برد میانگین ۷۲ درصدی را در برابر سیستم‌های پیشرو هوش مصنوعی مستندات (Document AI) به دست آورده است.

این انتشار، نقطه تمرکز را از تبدیل ساده متن به یک نمایش کامل و ساختارمند از اسناد تغییر می‌دهد. این مدل به گونه‌ای طراحی شده است که یک مدل کوچک و متمرکز باشد و به عنوان یک جزء حیاتی برای ورود داده‌ها (Ingestion) در جست‌وجوی سازمانی، RAG و خط لوله‌های بازیابی تخصصی عمل کند.

بسیاری از سازمان‌ها با مشکل «آخرین مایل» در پذیرش اسناد دست و پنجه نرم می‌کنند؛ جایی که فایل‌های PDF و تصاویر به رشته‌های متنی به‌هم‌ریخته تبدیل می‌شوند که باعث شکست خط لوله‌های RAG می‌گردد. با تکیه بر پوشش‌های قبلی ما در مورد اینکه چگونه ابزارهایی مانند mistral.rs مهارت‌های محلی عامل‌ها را فعال می‌کنند، OCR 4 بدنه ساختاری لازم را فراهم می‌کند تا عامل‌های هوشمند بتوانند واقعاً روی اسناد عمل کنند، نه اینکه صرفاً آن‌ها را بخوانند. این رویکرد بهینه‌سازی عملکرد در مدل‌های کوچک‌تر، یادآور تلاش‌های مشابه در پروژه‌هایی مانند AliyunConsoleAgent است که نشان داد چگونه می‌توان به عملکرد مدل‌های پیشرو با هزینه‌ای به‌مراتب کمتر دست یافت.

تصور کنید یک عامل AI را دارید که فقط یک بلوک متن را نمی‌بیند، بلکه دقیقاً می‌داند یک امضا در کجا قرار دارد، کدام بخش یک جدول است و مدل با چه میزان اطمینانی یک کلمه خاص را تشخیص داده است. این سطح از جزئیات، یک PDF خام را به یک نقشه ماشین‌خوان تبدیل می‌کند و به عامل‌ها اجازه می‌دهد تا وظایف پیچیده‌ای مانند پر کردن فرم‌ها، پردازش صورت‌حساب‌ها و بررسی‌های تطبیقی (Compliance) را انجام دهند.

قابلیت‌های فنی و خروجی‌های ساختارمند

مدل Mistral OCR 4 با فاصله گرفتن از نسل‌های قبلی، چیزی فراتر از Markdown برمی‌گرداند. در حالی که مدل‌های قبلی بر تبدیل صفحه به متن و جداول تمیز متمرکز بودند، OCR 4 یک نمایش ساختارمند ارائه می‌دهد که در آن هر بلوک متنی مکان‌یابی (Localized) و طبقه‌بندی شده است. این امر به سیستم‌های پایین‌دستی اجازه می‌دهد تا نه تنها بدانند سند چه می‌گوید، بلکه بدانند هر عنصر در کجا قرار دارد و چه نقشی ایفا می‌کند.

طبق مستندات فنی، هر درخواست شامل محتوای استخراج‌شده، کادرهای محدودکننده (Bounding Boxes)، نوع بلوک و امتیاز اطمینان (Confidence Score) است. این ویژگی‌ها چندین گردش کار خاص در مراحل پایین‌دستی را پشتیبانی می‌کنند:

تکه‌بندی معنایی برای RAG: بلوک‌های تمیز و طبقه‌بندی‌شده به واحدهای بازیابی (Retrieval Units) بهتری تبدیل می‌شوند.
مبانی ساختاری برای عامل‌ها: امکان انتقال از مرحله «خواندن» به «عمل کردن» (به عنوان مثال، پردازش صورت‌حساب یا پر کردن فرم).
محتوای ساختارمند برای رابط‌ها (Connectors): ارائه خروجی‌های سازگار و دارای نوع (Typed Output) برای خط لوله‌های نمایه‌سازی.

ویژگی‌های کلیدی خروجی عبارت‌اند از:

کادرهای محدودکننده (Bounding Boxes): مکان‌یابی دقیق متن برای هایلایت کردن در بستر متن (In-context highlighting) و ایجاد خط لوله‌های داده‌ای قابل اعتماد. این قابلیت، بیشترین درخواست کاربران از میسترال بود.
طبقه‌بندی بلوک‌ها: دسته‌بندی المان‌ها به بلوک‌های تایپ‌شده‌ی خاص، از جمله عناوین (Titles)، جداول، معادلات، امضاها و موارد دیگر.
امتیاز اطمینان (Confidence Scores): معیارهای داخلی که برای هر صفحه و هر کلمه تولید می‌شوند. این امتیازات باعث می‌شوند استنادات مدل مستند به منبع باشد و امکان سانسور (Redaction) و تایید توسط انسان (Human-in-the-loop) فراهم شود.

نسخه ۴ Mistral OCR: پیشرفته‌ترین فناوری تشخیص متن برای تحلیل هوشمند اسناد

دامنه چندزبانه و پشتیبانی از فرمت‌ها

این مدل از ۱۷۰ زبان در ۱۰ گروه زبانی متمایز پشتیبانی می‌کند. طبق گزارش میسترال، پیشرفت‌های قابل‌اندازه‌ای در زبان‌های نادر و کم‌منبع مشاهده شده است؛ از جمله زبان‌های گرجی، بنگالی، ارمنی، عبری، یونانی، گجراتی، تامیل، مالایالم، کناڈا، تلوگو، هندی و ژاپنی. در این زبان‌ها، بسیاری از سیستم‌های رقیب معمولاً دچار افت کیفیت می‌شوند، اما OCR 4 دقت بالایی را در تمامی این خطوط متنوع حفظ می‌کند.

علاوه بر زبان، Mistral OCR 4 طیف وسیعی از فرمت‌های رایج سازمانی را می‌پذیرد تا با سیلوهای داده‌ای شرکت‌ها سازگار باشد. فرمت‌های پشتیبانی شده عبارت‌اند از:

PDF
DOC
PPT
OpenDocument

بنچمارک‌های جامع و عملکرد

برای ارزیابی OCR 4، میسترال آن را با مدل‌های پیشرو OCR بومی (AI-native)، مدل‌های چندمنظوره پیشرو (Frontier Models)، سرویس‌های مستندات سازمانی و نسخه قبلی یعنی Mistral OCR 3 مقایسه کرد. بر اساس گزارش mistral.ai، مدل OCR 4 به امتیاز کلی ۸۵.۲۰ در بنچمارک عمومی OlmOCRBench و امتیاز ۹۳.۰۷ در OmniDocBench دست یافت. همچنین این مدل با امتیاز ۰.۹۸ در ارزیابی داخلی Crawl Multilingual پیشتاز است.

با این حال، میسترال هشدار می‌دهد که این اعداد کلی به دلیل مصنوعات (Artifacts) خاص هر بنچمارک می‌توانند گمراه‌کننده باشند. هنگام بررسی عدم تطابق‌ها، شرکت دریافت که بسیاری از آن‌ها خطای مدل نبودند، بلکه ناشی از موارد زیر بودند:

خطاهای داده‌ی مرجع (Ground-truth): حاشیه‌نویسی‌های مرجعی که نادرست هستند؛ مثلاً نام نویسنده در مرجع غلط تایپ شده اما مدل آن را درست از روی صفحه خوانده است، یا موارد مربوط به مناطق سانسور شده.
نمایه‌های ریاضی معادل: رشته‌های مختلف LaTeX که یکسان رندر می‌شوند، اغلب توسط ابزارهای مقایسه رشته‌ای (String Comparison) به عنوان عدم تطابق شناسایی می‌شوند، در حالی که معادله رندر شده درست است.
بخش‌بندی معادلات: اینکه یک عبارت به صورت یک معادله واحد باشد یا به قطعات درون‌خطی تقسیم شود، بر امتیاز تطابق اثر می‌گذارد، حتی اگر محتوای رندر شده یکسان باشد، زیرا تطبیق‌دهنده نمی‌تواند قطعات را تراز کند.
ترتیب خواندن چندستونی: استخراج صحیح کلماتی که در مرز ستون‌ها تقسیم شده‌اند (مانند "certifi-cates")، اغلب بر اساس پیش‌فرض‌های ترتیب ستون‌ها به عنوان شکست امتیازدهی می‌شوند.
تخصیص نوع بلوک: بنچمارک‌ها اغلب انتظار سربرگ‌ها (Headers) یا پانویس‌ها (Footers) را ندارند. حذف آن‌ها می‌تواند باعث شود بنچمارک به اشتباه عنوان گم‌شده یک صفحه را علامت‌گذاری کند.

این مصنوعات به‌طور خاص در اسناد ریاضی، علمی و چندستونی متمرکز هستند و اغلب خروجی‌های صحیح را جریمه می‌کنند. برای دور زدن این اثرات، شرکت یک مطالعه کور (Blind Study) با ارزیابان مستقل روی بیش از ۶۰۰ سند واقعی در بیش از ۱۲ زبان (که از تامین‌کنندگان شخص ثالث تهیه شده بود) انجام داد. ارزیابان در اکثر موارد در تمامی سیستم‌های تست شده، OCR 4 را ترجیح دادند.

بهره‌وری در دنیای واقعی نیز چشمگیر است. ایدان دونوهو، مهندس AI در Rogo، اشاره کرد که OCR 4 در یک مجموعه‌داده پرس‌وجوی مالی (Financial QA) که سرشار از نمودار و شکل بود، به دقتی معادل پارسرهای عامل‌محور رسید، در حالی که هزینه آن تقریباً ۸ برابر کمتر و تأخیرش ۱۷ برابر پایین‌تر بود. به همین ترتیب، ایوان میخائیلوف از Anaqua گزارش داد که این مدل در هر صفحه تقریباً ۴ برابر سریع‌تر از تامین‌کننده قبلی آن‌ها است، که برای گردش‌های کاری با حجم بالای پرونده‌ها (Docketing) و زمان‌بندی‌های مالکیت معنول (IP) حیاتی است.

رابط کاربری Mistral OCR 4: نمایشگر اسناد با قابلیت استخراج متن و درک هوشمند محتوا

گزینه‌های استقرار و مدل‌های قیمت‌گذاری

یکی از تاثیرگذارترین ویژگی‌های OCR 4 ردپای (Footprint) آن است. این مدل به قدری فشرده است که در یک کانتینر واحد اجرا می‌شود. این ویژگی به سازمان‌هایی با الزامات سخت‌گیرانه در مورد محل استقرار داده‌ها (Data-residency)، حاکمیت داده و انطباق قانونی اجازه می‌دهد تا داده‌های اسناد خود را به‌طور کامل در زیرساخت‌های خود میزبانی کنند. استقرار مدیریت‌شده توسط کاربر (Self-managed) به‌طور خاص برای مشتریان سازمانی در دسترس است.

برای کسانی که از API استفاده می‌کنند، مدل از طریق Mistral Studio، Amazon SageMaker و Microsoft Foundry در دسترس است. همچنین این مدل به‌زودی به Snowflake Parse Document اضافه خواهد شد. کیمی گروال، معاون مشارکت‌های اکوسیستم AI در مایکروسافت، اشاره کرد که در دسترس بودن Document AI با OCR 4 در Microsoft Foundry، نقطه عطفی در این مشارکت برای ارائه راهکارهای مقیاس‌پذیر و قابل‌اعتماد است.

ساختار قیمت‌گذاری برای پشتیبانی از هر دو نوع پردازش تعاملی و دسته‌ای با حجم بالا طراحی شده است:

API استاندارد: ۴ دلار به‌ازای هر ۱,۰۰۰ صفحه.
API دسته‌ای (Batch): ۲ دلار به‌ازای هر ۱,۰۰۰ صفحه (۵۰٪ تخفیف برای کارهای با throughput بالا).
Document AI: ۵ دلار به‌ازای هر ۱,۰۰۰ صفحه (یک مسیر بدون کد در سطح اپلیکیشن با لایه‌های ساختارمند اضافه می‌کند).

ادغام با Mistral Search Toolkit

مدل Mistral OCR 4 به عنوان یک جزء اصلی ورود داده برای Mistral Search Toolkit عمل می‌کند؛ یک چارچوب جست‌وجوی متن‌باز و ترکیب‌پذیر که در اجلاس AI Now معرفی شد. با ارائه بلوک‌های طبقه‌بندی شده، این مدل «تکه‌بندی معنایی» را ممکن می‌سازد، جایی که بلوک‌های تمیز و طبقه‌بندی شده به واحدهای بازیابی برتری برای RAG و جست‌وجوی سازمانی تبدیل می‌شوند.

این خروجی ساختارمند، ورودی‌های آماده برای استناد (Citation-ready) را به گردش کار گسترده‌تر ورود، بازیابی و ارزیابی ابزار جست‌وجو می‌رساند. توسعه‌دهندگان می‌توانند بین دو حالت تعاملی اصلی انتخاب کنند:

۱. حالت استخراج خالص (Pure Extraction Mode): برای جای‌گذاری استخراج سریع مستقیماً در یک اپلیکیشن یا عامل استفاده می‌شود. توسعه‌دهندگان با پاسخ‌های خام، کادرهای محدودکننده و امتیازات اطمینان کار می‌کنند تا منطق پایین‌دستی سفارشی خود را پیش ببرند. این حالت برای کاربرانی که کنترل کامل روی throughput و هزینه از طریق Batch API می‌خواهند، ایده‌آل است.
۲. حالت Document AI: از طریق همان نقطه اتصال (Endpoint) با پارامترهای اضافی قابل دسترسی است. این حالت باعث فراخوانی مدل mistral-small-2603 می‌شود تا خروجی OCR را به یک طرح JSON تعریف‌شده توسط کاربر تغییر شکل دهد. همچنین می‌تواند تصاویر شناسایی شده را از طریق یک فراخوانی اضافی مدل بینایی-زبان (Vision-Language Model) برای هر تصویر، با JSON ساختارمند حاشیه‌نویسی کند، یا با یک پرامپت سفارشی برای هدایت نحوه تفسیر یا خلاصه‌سازی کل سند استفاده شود.

موارد استفاده توصیه شده و محدوده

مدل OCR 4 برای خط لوله‌های با حجم بالا و گردش‌های کاری تعاملی در چندین بخش طراحی شده است. کاربران اولیه در حال حاضر از آن برای دیجیتال‌سازی آرشیوهای شرکت، تبدیل صورت‌حساب‌ها به فیلدهای ساختارمند و استخراج متن تمیز از گزارش‌های فنی و علمی استفاده می‌کنند.

حوزه‌های کاربردی خاص عبارت‌اند از:

حقوق، مالی و بهداشت: ارائه مبانی ساختاری برای گردش‌های کاری عامل‌محور مانند پردازش صورت‌حساب و بررسی‌های تطبیقی.
خط لوله‌های RAG: تولید پاسخ‌های مستند به منبع از طریق محتوای ساختاریافته و آماده استناد. با Search Toolkit، خروجی می‌تواند مستقیماً به خط لوله‌های بازیابی ارسال شود.
خط لوله‌های داده: استفاده از امتیازات اطمینان برای ایجاد صف‌های بازبینی انسانی کارآمد برای سانسورها و استخراج فرم‌ها.
پایگاه‌های دانش سازمانی: عمل به عنوان یک جزء منبع داده برای ورود داده‌های سفارشی و استخراج موجودات (Entity Extraction).

بسیار مهم است که موارد خارج از محدوده (Out-of-scope) را بدانیم. OCR 4 یک مدل درک مستند است، نه یک تصمیم‌گیرنده. این مدل برای تشخیص پزشکی، مشاوره یا قضاوت حقوقی، تصمیمات مالی با ریسک بالا، سیستم‌های حساس به ایمنی، پردازش‌های حساس به تأخیر/در لحظه (Real-time) یا ورودی‌های غیرمستندی مانند صوت و ویدیو خام طراحی نشده است.

تحلیل: تغییر به سمت حاکمیت مستندات

این انتشار نشان‌دهنده گذار از «هوش مصنوعی به عنوان سرویس» به «هوش مصنوعی به عنوان یک دستگاه» (Appliance) است. با کوچک کردن یک مدل SOTA OCR در یک کانتینر واحد، میسترال بخش‌های با انطباق بالا — حقوقی، بهداشت و مالی — را هدف قرار داده است؛ جایی که ارسال اسناد حساس به یک ابر (Cloud) شخص ثالث غیرقابل پذیرش است. این حرکت، پردازش دسته‌ای با هزینه کم و throughput بالا را در حالی که حاکمیت کامل داده‌ها حفظ می‌شود، ممکن می‌سازد.

برای کاربر نهایی، برد نه تنها در دقت، بلکه در قابلیت اطمینان است. گنجاندن امتیازهای اطمینان به این معنی است که توسعه‌دهندگان راستی راستی می‌توانند «صف‌های استثنا» (Exception Queues) بسازند؛ جایی که AI حدود ۹۵٪ از صورت‌حساب‌ها را به‌طور خودکار پردازش می‌کند و تنها ۵٪ از صفحاتی که اطمینان پایینی دارند را برای بررسی انسانی علامت‌گذاری می‌کند. این امر به‌طور مؤثر قمار «همه یا هیچ» در خط لوله‌های فعلی OCR را از بین می‌برد.

گام بعدی

توسعه‌دهندگان باید «کتابچه راهنمای شروع کار با OCR 4» (Cookbook) را برای پیاده‌سازی منطق کادرهای محدودکننده و طبقه‌بندی بلوک‌ها در برنامه‌های خود بررسی کنند. علاوه بر این، یک وبینار عملیاتی برای ۷ جولای ساعت ۱۸:۰۰ به وقت اروپا برنامه‌ریزی شده است تا موارد جدید این انتشار را با دموهای زنده و پرسش و پاسخ پوشش دهد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.