اگر امروز برای استخراج داده از هزاران سند PDF با توهمات مدلهای زبانی دستوپنجه نرم میکنید، مدل lift میتواند نقطهٔ پایان این کابوس باشد. این مدل با ثبت صحت ۹۰.۲ درصدی در استخراج فیلدها، استانداردی جدید برای مدلهای وزنباز تعریف کرده است. مدل lift یک مدل بینایی (Vision Model) جدید با ۹ میلیارد پارامتر است که توسط Datalab طراحی شده تا دادههای ساختاریافته را از PDFهای پیچیده استخراج کند. این انتشار، نشاندهنده تغییری به سمت مدلهای تخصصی و قابل میزبانی شخصی (Self-hostable) است که یکپارچگی ساختاری را بر گفتگوهای عمومی اولویت میدهند.
استخراج داده از PDFها سالهاست که یک فرآیند دشوار و دو مرحلهای است؛ ابتدا باید عملیات OCR برای به دست آوردن متن انجام شود و سپس یک مدل زبانی بزرگ (LLM) آن را پاکسازی کند. این مسیر اغلب منجر به توهم (Hallucination) — شبیه دوستی که خاطرهای را اشتباه تعریف میکند — میشود، زیرا مدل سعی میکند برای پر کردن شکافهای موجود در متن، دادهها را اختراع کند. Datalab که پیش از این ابزارهای متنبازی و متنباز OCR مثل surya و marker را عرضه کرده بود، مدل lift را ساخت تا این شکاف را از بین ببرد. این مدل مستقیماً تصاویر و PDFها را میخواند و آنها را بر اساس یک طرحوارهٔ سختگیرانهٔ JSON رمزگشایی میکند.
همانطور که در تحلیلهای پیشین ما دربارهی امنیت و دقت مدلهای استخراج داده اشاره کردیم، حذف لایههای میانی پردازش، کلید رسیدن به دقت صنعتی است.
مکانیسم رمزگشایی محدود
نوآوری اصلی در lift، رمزگشایی محدود به طرحواره (Schema-constrained decoding) است. برخلاف مدلهای زبانی بزرگ (LLM) استاندارد — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — که فقط توکن بعدی را حدس میزنند، lift از یک طرحوارهٔ JSON ارائهشده برای Masque کردن یا مسدود کردن توکنهایی که ساختار مورد نیاز را میشکنند، استفاده میکند.
به نقل از گزارش MarkTechPost، این فرآیند به این صورت عمل میکند که ابتدا یک طرحوارهٔ JSON به یک مدل Pydantic تبدیل میشود و سپس این مدل به یک گرامر برای سرور vLLM کامپایل میگردد. اگر یک فیلد در طرحواره به عنوان «عدد» تعریف شده باشد، مدل بهصورت فیزیکی قادر نیست یک رشته متنی (String) تولید کند. این مکانیسم تضمین میکند که خروجی همیشه یک JSON معتبر با شکل و ساختار صحیح باشد.
مدیریت پیچیدگی و غیبت دادهها
یکی از سختترین جنبههای استخراج سند، موضوع «خودداری» (Abstention) یا دانستن زمان سکوت است. مدل lift بهطور ویژه آموزش دیده است تا فیلدهای گمشده یا موجود نیست را به جای حدس زدن و توهم زدن، به صورت null باقی بگذارد.
ویژگیهای کلیدی در مدیریت اسناد عبارتند از:
- پشتیبانی از چند صفحه: مدل کل سند را در یک مرحله (Single Pass) پردازش میکند. این قابلیت به مدل اجازه میدهد مقادیاتی را که در شکستگیهای صفحه (Page Breaks) پخش شدهاند، بهدرستی شکار و یکپارچه کند.
- انعطاف طرحواره: این مدل از انواع دادهها شامل رشتهها (Strings)، اعداد (Numbers)، اعداد صحیح (Integers)، مقادیر بولی (Booleans)، آرایهها (Arrays) و اشیاء تودرتو (Nested Objects) پشتیبانی میکند.
- راهنمایی (Guidance): توضیحات نوشته شده برای هر فیلد در داخل طرحواره، به عنوان اصلیترین اهرم برای بهبود دقت در مواجهه با دادههای مبهم عمل میکنند.
محک مدل ۹ میلیاردی
تیم Datalab مدل lift را در برابر یک بنچمارک شامل ۲۲۵ سند، با طول متغیر از ۶ تا ۶۴ صفحه آزمایش کرد. نتایج این آزمایشها یک موازنهٔ مشخص بین کنترل میزبانی شخصی و قدرت APIهای ابری (Hosted) را نشان میدهد.
بر اساس مستندات منتشر شده، در زمینه صحت استخراج فیلدها (Field Accuracy)، مدل lift با کسب امتیاز ۹۰.۲٪، پیشتاز گروه مدلهای میزبانیشدنی بود. این مدل توانست رقبایی چون NuExtract3 با ۸۱.۵٪ و Qwen3.5-9B با ۷۶.۳۲٪ را شکست دهد. همچنین از نظر کارایی، lift بسیار بهینهتر از جایگزینهای ابری بود؛ به طوری که میانگین تأخیر (Latency) آن ۹.۵ ثانیه برای هر سند بود که تقریباً ۳ برابر سریعتر از Gemini Flash 3.5 (۲۸.۱ ثانیه) است.
با این حال، صحت کل سند (Full-document accuracy) — یعنی حالتی که در آن تکتک فیلدها بدون هیچ خطایی درست باشند — همچنان یک چالش باقی مانده است. lift در این شاخص ۲۰.۹٪ کسب کرد و پیچھےتر از Datalab API (۴۴.۴٪) و Gemini Flash 3.5 (۴۰.۰٪) قرار گرفت. این شکاف نشان میدهد که اگرچه استخراج در سطح فیلد بسیار قابل اعتماد است، اما اتوماسیون بدون دخالت انسان (Zero-touch automation) برای اسناد طولانی و پیچیده، همچنان به بازبینی انسانی یا لایههای تأیید اضافی نیاز دارد.
استقرار و لایسنس
توسعهدهندگان میتوانند lift را از طریق HuggingFace برای تستهای محلی یا از طریق سرور vLLM برای محیط تولید (Production) اجرا کنند. کدها تحت لایسنس Apache 2.0 منتشر شدهاند، اما وزنهای مدل از یک لایسنس اصلاحشدهٔ OpenRAIL-M استفاده میکنند. این لایسنس باعث میشود مدل برای اهداف پژوهشی، استفادههای شخصی و استارتاپهایی که سرمایه یا درآمد کمتر از ۵ میلیون دلار دارند، رایگان باقی بماند.
برای تسهیل شروع کار، تیم سازنده یک ابزار خط فرمان (CLI) به نام lift-pdf و یک محیط گرافیکی مبتنی بر Streamlit به نام «Schema Studio» ارائه داده است تا کاربران بتوانند پیش از استقرار نهایی، طرحوارههای استخراج خود را بسازند و آزمایش کنند.
گردش کار متخصصان
برای کسانی که در حال پیادهسازی lift در محیط عملیاتی هستند، یک گردش کار چهار مرحلهای توصیه میشود: نخست، تعریف طرحواره با توضیحات دقیق و شفاف؛ دوم، اجرای فرآیند استخراج؛ سوم، شاخهبندی نتایج (ارسال موارد null یا فراخوانیهای شکستخورده به بازبینی انسانی)؛ و چهارم، اعتبارسنجی نهایی JSON در مراحل پاییندستی برای شناسایی هرگونه شکست خاموش (Silent Fallback) در سیستم.
این رویکرد، PDF را از یک «جعبه سیاه» متنی به یک جریان دادهٔ قابل اعتماد تبدیل میکند. با تغییر تمرکز از مهندسی پرامپت (Prompt Engineering) — هنر سؤال درست پرسیدن — به مهندسی طرحواره (Schema Engineering)، خط لولههای پردازش فاکتورها و بررسی قراردادها به شدت پایدارتر میشوند.
این تحول، نشاندهنده یک روند گستردهتر در هوش مصنوعی است: حرکت از ایده «یک مدل برای همه کارها» به سمت وزنهای کوچک و بسیار تخصصی که در یک وظیفهٔ خاص و باارزش، استاد هستند. مدل lift با بهینهسازی برای اعتبار ساختاری و توانایی خودداری از پاسخ اشتباه، یک نقشه راه برای استخراج دادههای سازمانی قابل اعتماد ارائه میدهد.
گام بعدی شما
- از Schema Studio برای طراحی دقیق ساختار دادههای خود و آزمایش آنها استفاده کنید.
- برای بهینهسازی تأخیر در اسناد بسیار طولانی، پرچم
--page-rangeرا در ابزار CLI تست کنید تا محدوده صفحات پردازش شده را مدیریت کنید. - یک لایه بازبینی انسانی برای مدیریت فیلدهای
nullدر خط لولهٔ دادههای خود تعریف کنید تا کیفیت نهایی تضمین شود.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو