Datalab: دستیابی به رکورد ۹۰.۲٪ در تبدیل PDF به JSON

اگر امروز برای تبدیل اسناد PDF به داده‌های قابل پردازش هزینه می‌کنید، احتمالاً با نرخ خطای بالا یا هزینه‌های گزاف APIهای تجاری دست‌وپنجه نرم می‌کنید. حالا مدل جدید Lift این معادله را تغییر داده و دقت استخراج داده‌های ساختاریافته را به ۹۰.۲٪ رسانده است.

طبق گزارش Marktechpost، این دستاورد به شرکت‌ها اجازه می‌دهد اسناد غیرساختارمند — که معمولاً در فایل‌های PDF، اسکن‌ها و اسلایدهای پاورپوینت زندانی شده‌اند — را مستقیماً روی سخت‌افزار خود به فرمت استاندارد JSON تبدیل کنند. این پیشرفت در واقع تلاشی برای بهبود سرعت استخراج داده‌های ساختاریافته در مقایسه با مدل‌های تجاری است تا سازمان‌ها نه‌تنها از ریسک‌های امنیتی خروج داده‌ها بگریزند، بلکه هزینه‌ها را به‌شدت کاهش دهند تا داده‌های لازم برای تغذیه هوش مصنوعی زاینده (Generative AI) — شبیه به تبدیل کردن یک کوه کاغذ پراکنده به یک جدول منظم که ماشین بفهمد — فراهم شود.

بسیاری از سازمان‌ها شکست می‌خورند چون «تبدیل PDF به JSON» را یک تک‌مرحله می‌بینند. اما در واقعیت، این فرآیند از دو چالش مجزا تشکیل شده است. اول استخراج داده‌محور (Schema-driven extraction) که فیلدهای خاصی مثل شماره فاکتور، فرم‌ها، رسیدها یا تاریخ قرارداد را پر می‌کند. این رویکرد مشابه تلاش‌های دیگر برای اتوماسیون فرم‌ها و جداسازی آن‌ها از چرخه توسعه است که هدف نهایی آن ساده‌سازی تعامل کاربر با داده‌های ساختاریافته است. دوم، تجزی‌وتحلیل سند (Document parsing) که چیدمان کل صفحه، شامل ترتیب خواندن، جداول، فرمول‌ها و کدها را بازسازی کرده و به Markdown یا JSON تبدیل می‌کند تا در سامانه‌های تولید بازیابی‌افزا (RAG) — مثل دانش‌آموزی که قبل از جواب دادن، اول کتاب درسی را باز می‌کند و از آن نقل می‌آورد — و ایجنت‌های هوشمند استفاده شود.

انتخاب رویکرد اشتباه منجر به هدررفت زمان مهندسی و منابع پردازشی می‌شود. امروزه مدل‌های محلی با وزن‌های باز (Open Weights) در حال تبدیل شدن به استاندارد این حوزه هستند؛ زیرا APIهای تجاری می‌توانند برای هر میلیون صفحه هزاران دلار هزینه داشته باشند و نیازمند ارسال اسناد حساس به خارج از محیط سازمان باشند. میزبانی شخصی (Self-hosting) این محدودیت‌ها را از بین برده و اسناد را در محیط داخلی (On-premise) حفظ می‌کند.

مدل‌های استخراج داده‌محور

مدل lift، یک مدل بینایی-زبانی (VLM) با ۹ میلیارد پارامتر از شرکت Datalab (تیم سازنده Marker و Surya)، به‌طور تخصصی برای رمزگشایی محدود به طرح‌واره (Schema) طراحی شده است. این ویژگی تضمین می‌کند که خروجی همیشه یک JSON معتبر باشد. این مدل بر پایه Qwen 3.5 ساخته شده و می‌تواند اسناد چندصفحه‌ای را در یک مرحله پردازش کند، حتی اگر مقادیر یک فیلد در صفحات مختلف پخش شده باشند. توسعه‌دهندگان می‌توانند این مدل را به‌صورت محلی از طریق Hugging Face یا از طریق یک سرور vLLM اجرا کنند.

برای تسهیل پیاده‌سازی و حمایت از توسعه‌دهندگان، lift همراه با یک رابط خط فرمان (CLI)، API پایتون و ابزار ‘Schema Studio’ برای ساخت و آزمایش طرح‌واره‌ها عرضه شده است. فرآیند پیاده‌سازی مستقیم است: کاربر با دستور pip install lift-pdf ابزار را نصب کرده، یک سرور vLLM را استارت می‌زند و سپس از دستور lift_extract یا تابع extract در پایتون استفاده می‌کند تا یک فایل PDF را به یک فایل schema.json متصل و نگاشت کند.

بر اساس نتایج یک محک (Benchmark) روی ۲۲۵ سند، lift به دقت ۹۰.۲٪ در سطح فیلد با تأخیر میانه ۹.۵ ثانیه دست یافت. این عدد از NuExtract 3 (۸۱.۵٪) و Qwen 3.5-9B (۷۶.۳٪) بالاتر است. با این حال، این مدل هنوز از Gemini Flash 3.5 (۹۱.۳٪) و API مدیریت‌شده Datalab (۹۵.۹٪) عقب‌تر است.

در سوی دیگر، مدل NuExtract 3 از شرکت NuMind رویکرد متفاوتی دارد. این مدل بینایی-زبانی ۴ میلیارد پارامتری که بر پایه ساختار Qwen است، دو وظیفه را یکپارچه کرده است: استخراج ساختاریافته (سند به JSON) و استخراج محتوا (OCR به Markdown). این مدل از یادگیری تقویتی برای ارائه استدلال‌های خاص استخراج استفاده می‌کند که کاربر می‌تواند این قابلیت استدلال را برای هر درخواست به‌صورت جداگانه فعال یا غیرفعال کند. NuExtract 3 چندوجهی و چندزبانه است و از طریق vLLM با یک API سازگار با OpenAI و یک SDK پایتون (قابل نصب با pip install numind) ارائه می‌شود.

خط‌لوله‌های تجزیه و تحلیل سند

برای کسانی که بازسازی کامل چیدمان صفحه را می‌خواهند، IBM Docling (که اکنون زیرمجموعه LF AI & Data Foundation است) یک خط‌لوله جامع ارائه می‌دهد. این ابزار PDF، DOCX، PPTX، XLSX، HTML، تصاویر و موارد دیگر را تحلیل کرده و خروجی را به صورت Markdown، HTML، JSON بدون فقدان (Lossless) و DocTags صادر می‌کند. هسته این سیستم، نمایش DoclingDocument است که ترتیب خواندن، چیدمان، جداول و فرمول‌ها را به صورت LaTeX حفظ می‌کند.

Docling برای محیط‌های ایزوله (Air-gapped) طراحی شده و مستقیماً با فریم‌ورک‌هایی مثل LangChain، LlamaIndex، Crew AI و Haystack ادغام می‌شود. همچنین این پروژه یک سرور MCP و حالتی به نام Docling Serve را ارائه می‌دهد. در حالی که این پروژه تحت مجوز باز MIT منتشر شده، IBM یک نسخه مدیریت‌شده را نیز از طریق watsonx ارائه می‌کند.

همچنین IBM مدل Granite-Docling-258M را معرفی کرده است؛ مدلی بسیار کوچک و فشرده که تبدیل تک‌مرحله‌ای (One-shot conversion) را درون خط‌لوله‌های Docling انجام می‌دهد. این مدل در GPU A100 به طور میانگین ۰.۳۵ ثانیه برای هر صفحه زمان می‌برد. این مدل بر روی معماری Idefics3 با رمزگذار SigLIP2 و یک بدنه زبانی Granite 165M ساخته شده و تمرکزش صرفاً بر تبدیل سند (OCR، چیدمان، جداول، کدها و معادلات) است و نه درک کلی تصاویر. این مدل تحت مجوز Apache 2.0 منتشر شده است.

مدل MinerU2.5-Pro از OpenDataLab و آزمایشگاه AI شانگهای، روی چیدمان‌های پیچیده، از جمله تجزیه با رزولوشن بالا برای جداول و نمودارهای چندصفحه‌ای تمرکز دارد. این ابزار ورودی‌های PDF، تصویر، DOCX، PPTX و XLSX را به Markdown و JSON تبدیل می‌کند. در اوایل سال ۲۰۲۶، MinerU مجوز خود را از AGPL-3.0 به یک «مجوز متن‌باز MinerU» (بر پایه Apache 2.0) تغییر داد تا اصطکاک برای استقرار تجاری کاهش یابد.

شرکت Datalab همچنین ابزار Marker را ارائه می‌دهد که یک خط‌لوله برای تبدیل اسناد به Markdown، JSON، تکه‌ها (Chunks) و HTML است. این ابزار از PDF، تصویر، PPTX، DOCX، XLSX، HTML و EPUB پشتیبانی کرده و جداول، فرم‌ها، معادلات، ریاضیات درون‌خطی، لینک‌ها و کدها را قالب‌بندی می‌کند. کاربران می‌توانند از پرچم اختیاری --use_llm برای بهبود استخراج جداول و فرم‌ها استفاده کنند. این ابزار در مجموعه olmOCR-Bench امتیاز ۷۶.۱ را کسب کرد. برای عملکرد بالاتر، پلتفرم مدیریت‌شده Datalab اکنون از مدل جدیدتری به نام Chandra تحت مجوز Apache-2.0 استفاده می‌کند.

در همین راستا، مدل olmOCR 2 از مؤسسه Allen Institute for AI (Ai2)، متخصص OCR برای چیدمان‌های پیچیده چندستونی است. این مدل ۷ میلیارد پارامتری PDFها را به متن تمیز و Markdown تبدیل می‌کند در حالی که ترتیب خواندن، جداول، معادلات و دست‌خط‌ها را حفظ می‌نماید. این مدل با استفاده از یادگیری تقویتی از پاداش‌های قابل تایید (تست‌های واحد مصنوعی) آموزش دیده است. این مدل در آزمون olmOCR-Bench امتیاز ۸۲.۴ را کسب کرد و هزینه اجرای آن روی GPUهای خصوصی تقریباً ۱۷۸ دلار برای هر میلیون صفحه است. ابزارها و وزن‌های آن Apache-2.0 هستند و در حال حاضر تمرکز آن‌ها بر زبان انگلیسی است.

مدل‌های DeepSeek-OCR (اکتبر ۲۰۲۵) و نسخه دوم آن (DeepSeek-OCR 2 در ژانویه ۲۰۲۶)، تکنیکی به نام «فشرده‌سازی اپتیکال زمینه» (Contexts Optical Compression) معرفی کردند. این روش صفحات غنی از متن را به توکن‌های بینایی فشرده تبدیل می‌کند که سپس مجدداً به متن رمزگشایی می‌شوند. این قابلیت به مدل ۳ میلیارد پارامتری MoE (که در هر توکن حدود ۵۷۰ میلیون پارامتر را فعال می‌کند) اجازه می‌دهد اسناد طولانی را با توکن‌های بسیار کمتر پردازش کند. این مدل از بیش از ۱۰۰ زبان پشتیبانی کرده و خروجی‌های متن ساده، Markdown، جداول HTML یا JSON ساختاریافته را تحت مجوز MIT ارائه می‌دهد.

جایگزین‌های همه‌منظوره

وقتی مدل‌های تخصصی شکست می‌خورند، سری Qwen3-VL از Alibaba به عنوان یک جایگزین منعطف عمل می‌کند. این سری چون مدل‌های چندوجهی عمومی هستند، به‌طور خاص روی اسناد تمرکز ندارند، اما می‌توان آن‌ها را با پرامپت‌نویسی هدایت کرد تا Markdown، JSON یا کد را از یک صفحه استخراج کنند. بیشتر نسخه‌های این مدل تحت مجوز Apache 2.0 عرضه شده‌اند. اگرچه این مدل‌ها منعطف هستند، اما به مهندسی پرامپت بیشتری نیاز دارند و تضمین‌های خروجی کمتری نسبت به ابزارهای تخصصی ارائه می‌دهند.

چشم‌انداز موازنه و انتخاب

انتخاب مدل مناسب مستلزم بررسی دقیق سه محور دقت، سرعت و محدودیت‌های قانونی است:

تفکیک مجوزها: بسیاری از ابزارها مجوزهای خود را تقسیم کرده‌اند. برای مثال، lift و Marker برای کدها از Apache-2.0 اما برای وزن‌های مدل از نسخه تغییر‌یافته OpenRAIL-M استفاده می‌کنند.
موانع تجاری: وزن‌های lift برای پژوهش و استارتاپ‌هایی با سرمایه یا درآمد زیر ۵ میلیون دلار رایگان است؛ اما سازمان‌های بزرگ‌تر به مجوز تجاری نیاز دارند. مجوز وزن‌های Marker برای استارتاپ‌های زیر ۲ میلیون دلار رایگان است.
شکاف دقت: دقت در سطح کل سند (Full-document accuracy) همچنان یک چالش است. حتی مدل قدرتمندی مثل lift در بازگرداندن «تمام فیلدهای یک سند به‌طور کامل و بدون خطا»، تنها ۲۰.۹٪ صحت دارد، به این معنی که درست استخراج کردن تک‌تک فیلدهای یک سند هنوز دشوار است.
سنجش عملکرد: در حالی که lift برای استخراج ساختاریافته دارای تأخیر میانه ۹.۵ ثانیه است، Granite-Docling در تجزیه ساختاری به سرعت فوق‌العاده ۰.۳۵ ثانیه برای هر صفحه دست یافته است.

این چرخش به سمت مدل‌های بینایی-زبانی (VLM) کوچک و تخصصی، استراتژی AI سندی را تغییر داده است. ما از رویکرد «یک مدل برای همه» (One-size-fits-all) به سمت یک استراتژی دوقطبی حرکت می‌کنیم: یک مدل برای استخراج فیلد و مدل دیگر برای تجزیه ساختاری.

برای توسعه‌دهنده، این یعنی انتخاب مدل کاملاً به این بستگی دارد که آیا به یک ورودی ساختاریافته برای پایگاه‌داده نیاز دارد یا یک متن تمیز برای تغذیه یک مدل زبانی بزرگ (LLM). ظهور مدل‌هایی مثل DeepSeek-OCR و Granite-Docling ثابت کرد که امروزه کارایی و سرعت بر اندازه خام پارامترها اولویت دارند.

گام بعدی شما

کتابخانه lift-pdf را از طریق pip نصب کرده و طرح‌واره‌های خود را در 'Schema Studio' تست کنید.
اگر اولویت شما سرعت است و نیاز به استخراج فیلد ندارید، از Granite-Docling استفاده کنید.
پیش از استقرار تجاری، حتماً کارت‌های مدل (Model Cards) را برای بررسی دقیق شرایط مجوز، به‌ویژه محدودیت‌های درآمدی OpenRAIL-M در مدل‌های Datalab، مطالعه کنید.

اما اثر این مدل‌های کوچک بر سخت‌افزارهای لبه (Edge) حتی جذاب‌تر است؛ به تحلیل ما درباره تراشه‌های NPU جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.