اگر امروز برای تبدیل اسناد PDF به دادههای قابل پردازش هزینه میکنید، احتمالاً با نرخ خطای بالا یا هزینههای گزاف APIهای تجاری دستوپنجه نرم میکنید. حالا مدل جدید Lift این معادله را تغییر داده و دقت استخراج دادههای ساختاریافته را به ۹۰.۲٪ رسانده است.
طبق گزارش Marktechpost، این دستاورد به شرکتها اجازه میدهد اسناد غیرساختارمند — که معمولاً در فایلهای PDF، اسکنها و اسلایدهای پاورپوینت زندانی شدهاند — را مستقیماً روی سختافزار خود به فرمت استاندارد JSON تبدیل کنند. این پیشرفت در واقع تلاشی برای بهبود سرعت استخراج دادههای ساختاریافته در مقایسه با مدلهای تجاری است تا سازمانها نهتنها از ریسکهای امنیتی خروج دادهها بگریزند، بلکه هزینهها را بهشدت کاهش دهند تا دادههای لازم برای تغذیه هوش مصنوعی زاینده (Generative AI) — شبیه به تبدیل کردن یک کوه کاغذ پراکنده به یک جدول منظم که ماشین بفهمد — فراهم شود.
بسیاری از سازمانها شکست میخورند چون «تبدیل PDF به JSON» را یک تکمرحله میبینند. اما در واقعیت، این فرآیند از دو چالش مجزا تشکیل شده است. اول استخراج دادهمحور (Schema-driven extraction) که فیلدهای خاصی مثل شماره فاکتور، فرمها، رسیدها یا تاریخ قرارداد را پر میکند. این رویکرد مشابه تلاشهای دیگر برای اتوماسیون فرمها و جداسازی آنها از چرخه توسعه است که هدف نهایی آن سادهسازی تعامل کاربر با دادههای ساختاریافته است. دوم، تجزیوتحلیل سند (Document parsing) که چیدمان کل صفحه، شامل ترتیب خواندن، جداول، فرمولها و کدها را بازسازی کرده و به Markdown یا JSON تبدیل میکند تا در سامانههای تولید بازیابیافزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — و ایجنتهای هوشمند استفاده شود.
انتخاب رویکرد اشتباه منجر به هدررفت زمان مهندسی و منابع پردازشی میشود. امروزه مدلهای محلی با وزنهای باز (Open Weights) در حال تبدیل شدن به استاندارد این حوزه هستند؛ زیرا APIهای تجاری میتوانند برای هر میلیون صفحه هزاران دلار هزینه داشته باشند و نیازمند ارسال اسناد حساس به خارج از محیط سازمان باشند. میزبانی شخصی (Self-hosting) این محدودیتها را از بین برده و اسناد را در محیط داخلی (On-premise) حفظ میکند.
مدلهای استخراج دادهمحور
مدل lift، یک مدل بینایی-زبانی (VLM) با ۹ میلیارد پارامتر از شرکت Datalab (تیم سازنده Marker و Surya)، بهطور تخصصی برای رمزگشایی محدود به طرحواره (Schema) طراحی شده است. این ویژگی تضمین میکند که خروجی همیشه یک JSON معتبر باشد. این مدل بر پایه Qwen 3.5 ساخته شده و میتواند اسناد چندصفحهای را در یک مرحله پردازش کند، حتی اگر مقادیر یک فیلد در صفحات مختلف پخش شده باشند. توسعهدهندگان میتوانند این مدل را بهصورت محلی از طریق Hugging Face یا از طریق یک سرور vLLM اجرا کنند.
برای تسهیل پیادهسازی و حمایت از توسعهدهندگان، lift همراه با یک رابط خط فرمان (CLI)، API پایتون و ابزار ‘Schema Studio’ برای ساخت و آزمایش طرحوارهها عرضه شده است. فرآیند پیادهسازی مستقیم است: کاربر با دستور pip install lift-pdf ابزار را نصب کرده، یک سرور vLLM را استارت میزند و سپس از دستور lift_extract یا تابع extract در پایتون استفاده میکند تا یک فایل PDF را به یک فایل schema.json متصل و نگاشت کند.
بر اساس نتایج یک محک (Benchmark) روی ۲۲۵ سند، lift به دقت ۹۰.۲٪ در سطح فیلد با تأخیر میانه ۹.۵ ثانیه دست یافت. این عدد از NuExtract 3 (۸۱.۵٪) و Qwen 3.5-9B (۷۶.۳٪) بالاتر است. با این حال، این مدل هنوز از Gemini Flash 3.5 (۹۱.۳٪) و API مدیریتشده Datalab (۹۵.۹٪) عقبتر است.
در سوی دیگر، مدل NuExtract 3 از شرکت NuMind رویکرد متفاوتی دارد. این مدل بینایی-زبانی ۴ میلیارد پارامتری که بر پایه ساختار Qwen است، دو وظیفه را یکپارچه کرده است: استخراج ساختاریافته (سند به JSON) و استخراج محتوا (OCR به Markdown). این مدل از یادگیری تقویتی برای ارائه استدلالهای خاص استخراج استفاده میکند که کاربر میتواند این قابلیت استدلال را برای هر درخواست بهصورت جداگانه فعال یا غیرفعال کند. NuExtract 3 چندوجهی و چندزبانه است و از طریق vLLM با یک API سازگار با OpenAI و یک SDK پایتون (قابل نصب با pip install numind) ارائه میشود.
خطلولههای تجزیه و تحلیل سند
برای کسانی که بازسازی کامل چیدمان صفحه را میخواهند، IBM Docling (که اکنون زیرمجموعه LF AI & Data Foundation است) یک خطلوله جامع ارائه میدهد. این ابزار PDF، DOCX، PPTX، XLSX، HTML، تصاویر و موارد دیگر را تحلیل کرده و خروجی را به صورت Markdown، HTML، JSON بدون فقدان (Lossless) و DocTags صادر میکند. هسته این سیستم، نمایش DoclingDocument است که ترتیب خواندن، چیدمان، جداول و فرمولها را به صورت LaTeX حفظ میکند.
Docling برای محیطهای ایزوله (Air-gapped) طراحی شده و مستقیماً با فریمورکهایی مثل LangChain، LlamaIndex، Crew AI و Haystack ادغام میشود. همچنین این پروژه یک سرور MCP و حالتی به نام Docling Serve را ارائه میدهد. در حالی که این پروژه تحت مجوز باز MIT منتشر شده، IBM یک نسخه مدیریتشده را نیز از طریق watsonx ارائه میکند.
همچنین IBM مدل Granite-Docling-258M را معرفی کرده است؛ مدلی بسیار کوچک و فشرده که تبدیل تکمرحلهای (One-shot conversion) را درون خطلولههای Docling انجام میدهد. این مدل در GPU A100 به طور میانگین ۰.۳۵ ثانیه برای هر صفحه زمان میبرد. این مدل بر روی معماری Idefics3 با رمزگذار SigLIP2 و یک بدنه زبانی Granite 165M ساخته شده و تمرکزش صرفاً بر تبدیل سند (OCR، چیدمان، جداول، کدها و معادلات) است و نه درک کلی تصاویر. این مدل تحت مجوز Apache 2.0 منتشر شده است.
مدل MinerU2.5-Pro از OpenDataLab و آزمایشگاه AI شانگهای، روی چیدمانهای پیچیده، از جمله تجزیه با رزولوشن بالا برای جداول و نمودارهای چندصفحهای تمرکز دارد. این ابزار ورودیهای PDF، تصویر، DOCX، PPTX و XLSX را به Markdown و JSON تبدیل میکند. در اوایل سال ۲۰۲۶، MinerU مجوز خود را از AGPL-3.0 به یک «مجوز متنباز MinerU» (بر پایه Apache 2.0) تغییر داد تا اصطکاک برای استقرار تجاری کاهش یابد.
شرکت Datalab همچنین ابزار Marker را ارائه میدهد که یک خطلوله برای تبدیل اسناد به Markdown، JSON، تکهها (Chunks) و HTML است. این ابزار از PDF، تصویر، PPTX، DOCX، XLSX، HTML و EPUB پشتیبانی کرده و جداول، فرمها، معادلات، ریاضیات درونخطی، لینکها و کدها را قالببندی میکند. کاربران میتوانند از پرچم اختیاری --use_llm برای بهبود استخراج جداول و فرمها استفاده کنند. این ابزار در مجموعه olmOCR-Bench امتیاز ۷۶.۱ را کسب کرد. برای عملکرد بالاتر، پلتفرم مدیریتشده Datalab اکنون از مدل جدیدتری به نام Chandra تحت مجوز Apache-2.0 استفاده میکند.
در همین راستا، مدل olmOCR 2 از مؤسسه Allen Institute for AI (Ai2)، متخصص OCR برای چیدمانهای پیچیده چندستونی است. این مدل ۷ میلیارد پارامتری PDFها را به متن تمیز و Markdown تبدیل میکند در حالی که ترتیب خواندن، جداول، معادلات و دستخطها را حفظ مینماید. این مدل با استفاده از یادگیری تقویتی از پاداشهای قابل تایید (تستهای واحد مصنوعی) آموزش دیده است. این مدل در آزمون olmOCR-Bench امتیاز ۸۲.۴ را کسب کرد و هزینه اجرای آن روی GPUهای خصوصی تقریباً ۱۷۸ دلار برای هر میلیون صفحه است. ابزارها و وزنهای آن Apache-2.0 هستند و در حال حاضر تمرکز آنها بر زبان انگلیسی است.
مدلهای DeepSeek-OCR (اکتبر ۲۰۲۵) و نسخه دوم آن (DeepSeek-OCR 2 در ژانویه ۲۰۲۶)، تکنیکی به نام «فشردهسازی اپتیکال زمینه» (Contexts Optical Compression) معرفی کردند. این روش صفحات غنی از متن را به توکنهای بینایی فشرده تبدیل میکند که سپس مجدداً به متن رمزگشایی میشوند. این قابلیت به مدل ۳ میلیارد پارامتری MoE (که در هر توکن حدود ۵۷۰ میلیون پارامتر را فعال میکند) اجازه میدهد اسناد طولانی را با توکنهای بسیار کمتر پردازش کند. این مدل از بیش از ۱۰۰ زبان پشتیبانی کرده و خروجیهای متن ساده، Markdown، جداول HTML یا JSON ساختاریافته را تحت مجوز MIT ارائه میدهد.
جایگزینهای همهمنظوره
وقتی مدلهای تخصصی شکست میخورند، سری Qwen3-VL از Alibaba به عنوان یک جایگزین منعطف عمل میکند. این سری چون مدلهای چندوجهی عمومی هستند، بهطور خاص روی اسناد تمرکز ندارند، اما میتوان آنها را با پرامپتنویسی هدایت کرد تا Markdown، JSON یا کد را از یک صفحه استخراج کنند. بیشتر نسخههای این مدل تحت مجوز Apache 2.0 عرضه شدهاند. اگرچه این مدلها منعطف هستند، اما به مهندسی پرامپت بیشتری نیاز دارند و تضمینهای خروجی کمتری نسبت به ابزارهای تخصصی ارائه میدهند.
چشمانداز موازنه و انتخاب
انتخاب مدل مناسب مستلزم بررسی دقیق سه محور دقت، سرعت و محدودیتهای قانونی است:
- تفکیک مجوزها: بسیاری از ابزارها مجوزهای خود را تقسیم کردهاند. برای مثال، lift و Marker برای کدها از Apache-2.0 اما برای وزنهای مدل از نسخه تغییریافته OpenRAIL-M استفاده میکنند.
- موانع تجاری: وزنهای lift برای پژوهش و استارتاپهایی با سرمایه یا درآمد زیر ۵ میلیون دلار رایگان است؛ اما سازمانهای بزرگتر به مجوز تجاری نیاز دارند. مجوز وزنهای Marker برای استارتاپهای زیر ۲ میلیون دلار رایگان است.
- شکاف دقت: دقت در سطح کل سند (Full-document accuracy) همچنان یک چالش است. حتی مدل قدرتمندی مثل lift در بازگرداندن «تمام فیلدهای یک سند بهطور کامل و بدون خطا»، تنها ۲۰.۹٪ صحت دارد، به این معنی که درست استخراج کردن تکتک فیلدهای یک سند هنوز دشوار است.
- سنجش عملکرد: در حالی که lift برای استخراج ساختاریافته دارای تأخیر میانه ۹.۵ ثانیه است، Granite-Docling در تجزیه ساختاری به سرعت فوقالعاده ۰.۳۵ ثانیه برای هر صفحه دست یافته است.
این چرخش به سمت مدلهای بینایی-زبانی (VLM) کوچک و تخصصی، استراتژی AI سندی را تغییر داده است. ما از رویکرد «یک مدل برای همه» (One-size-fits-all) به سمت یک استراتژی دوقطبی حرکت میکنیم: یک مدل برای استخراج فیلد و مدل دیگر برای تجزیه ساختاری.
برای توسعهدهنده، این یعنی انتخاب مدل کاملاً به این بستگی دارد که آیا به یک ورودی ساختاریافته برای پایگاهداده نیاز دارد یا یک متن تمیز برای تغذیه یک مدل زبانی بزرگ (LLM). ظهور مدلهایی مثل DeepSeek-OCR و Granite-Docling ثابت کرد که امروزه کارایی و سرعت بر اندازه خام پارامترها اولویت دارند.
گام بعدی شما
- کتابخانه
lift-pdfرا از طریق pip نصب کرده و طرحوارههای خود را در 'Schema Studio' تست کنید. - اگر اولویت شما سرعت است و نیاز به استخراج فیلد ندارید، از Granite-Docling استفاده کنید.
- پیش از استقرار تجاری، حتماً کارتهای مدل (Model Cards) را برای بررسی دقیق شرایط مجوز، بهویژه محدودیتهای درآمدی OpenRAIL-M در مدلهای Datalab، مطالعه کنید.
اما اثر این مدلهای کوچک بر سختافزارهای لبه (Edge) حتی جذابتر است؛ به تحلیل ما درباره تراشههای NPU جدید مراجعه کنید.




گفتگو