Datalab: استخراج ساختاریافته با سرعت ۳ برابر Gemini Flash

اگر امروز برای استخراج داده از هزاران سند PDF با توهمات مدل‌های زبانی دست‌وپنجه نرم می‌کنید، مدل lift می‌تواند نقطهٔ پایان این کابوس باشد. این مدل با ثبت صحت ۹۰.۲ درصدی در استخراج فیلدها، استانداردی جدید برای مدل‌های وزن‌باز تعریف کرده است. مدل lift یک مدل بینایی (Vision Model) جدید با ۹ میلیارد پارامتر است که توسط Datalab طراحی شده تا داده‌های ساختاریافته را از PDFهای پیچیده استخراج کند. این انتشار، نشان‌دهنده تغییری به سمت مدل‌های تخصصی و قابل میزبانی شخصی (Self-hostable) است که یکپارچگی ساختاری را بر گفتگوهای عمومی اولویت می‌دهند.

استخراج داده از PDFها سال‌هاست که یک فرآیند دشوار و دو مرحله‌ای است؛ ابتدا باید عملیات OCR برای به دست آوردن متن انجام شود و سپس یک مدل زبانی بزرگ (LLM) آن را پاک‌سازی کند. این مسیر اغلب منجر به توهم (Hallucination) — شبیه دوستی که خاطره‌ای را اشتباه تعریف می‌کند — می‌شود، زیرا مدل سعی می‌کند برای پر کردن شکاف‌های موجود در متن، داده‌ها را اختراع کند. Datalab که پیش از این ابزارهای متن‌بازی و متن‌باز OCR مثل surya و marker را عرضه کرده بود، مدل lift را ساخت تا این شکاف را از بین ببرد. این مدل مستقیماً تصاویر و PDFها را می‌خواند و آن‌ها را بر اساس یک طرح‌وارهٔ سخت‌گیرانهٔ JSON رمزگشایی می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت و دقت مدل‌های استخراج داده اشاره کردیم، حذف لایه‌های میانی پردازش، کلید رسیدن به دقت صنعتی است.

مکانیسم رمزگشایی محدود

نوآوری اصلی در lift، رمزگشایی محدود به طرح‌واره (Schema-constrained decoding) است. برخلاف مدل‌های زبانی بزرگ (LLM) استاندارد — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — که فقط توکن بعدی را حدس می‌زنند، lift از یک طرح‌وارهٔ JSON ارائه‌شده برای Masque کردن یا مسدود کردن توکن‌هایی که ساختار مورد نیاز را می‌شکنند، استفاده می‌کند.

به نقل از گزارش MarkTechPost، این فرآیند به این صورت عمل می‌کند که ابتدا یک طرح‌وارهٔ JSON به یک مدل Pydantic تبدیل می‌شود و سپس این مدل به یک گرامر برای سرور vLLM کامپایل می‌گردد. اگر یک فیلد در طرح‌واره به عنوان «عدد» تعریف شده باشد، مدل به‌صورت فیزیکی قادر نیست یک رشته متنی (String) تولید کند. این مکانیسم تضمین می‌کند که خروجی همیشه یک JSON معتبر با شکل و ساختار صحیح باشد.

مدیریت پیچیدگی و غیبت داده‌ها

یکی از سخت‌ترین جنبه‌های استخراج سند، موضوع «خودداری» (Abstention) یا دانستن زمان سکوت است. مدل lift به‌طور ویژه آموزش دیده است تا فیلدهای گم‌شده یا موجود نیست را به جای حدس زدن و توهم زدن، به صورت null باقی بگذارد.

ویژگی‌های کلیدی در مدیریت اسناد عبارتند از:

پشتیبانی از چند صفحه: مدل کل سند را در یک مرحله (Single Pass) پردازش می‌کند. این قابلیت به مدل اجازه می‌دهد مقادیاتی را که در شکستگی‌های صفحه (Page Breaks) پخش شده‌اند، به‌درستی شکار و یکپارچه کند.
انعطاف طرح‌واره: این مدل از انواع داده‌ها شامل رشته‌ها (Strings)، اعداد (Numbers)، اعداد صحیح (Integers)، مقادیر بولی (Booleans)، آرایه‌ها (Arrays) و اشیاء تودرتو (Nested Objects) پشتیبانی می‌کند.
راهنمایی (Guidance): توضیحات نوشته شده برای هر فیلد در داخل طرح‌واره، به عنوان اصلی‌ترین اهرم برای بهبود دقت در مواجهه با داده‌های مبهم عمل می‌کنند.

محک مدل ۹ میلیاردی

تیم Datalab مدل lift را در برابر یک بنچمارک شامل ۲۲۵ سند، با طول متغیر از ۶ تا ۶۴ صفحه آزمایش کرد. نتایج این آزمایش‌ها یک موازنهٔ مشخص بین کنترل میزبانی شخصی و قدرت APIهای ابری (Hosted) را نشان می‌دهد.

بر اساس مستندات منتشر شده، در زمینه صحت استخراج فیلدها (Field Accuracy)، مدل lift با کسب امتیاز ۹۰.۲٪، پیشتاز گروه مدل‌های میزبانی‌شدنی بود. این مدل توانست رقبایی چون NuExtract3 با ۸۱.۵٪ و Qwen3.5-9B با ۷۶.۳۲٪ را شکست دهد. همچنین از نظر کارایی، lift بسیار بهینه‌تر از جایگزین‌های ابری بود؛ به طوری که میانگین تأخیر (Latency) آن ۹.۵ ثانیه برای هر سند بود که تقریباً ۳ برابر سریع‌تر از Gemini Flash 3.5 (۲۸.۱ ثانیه) است.

با این حال، صحت کل سند (Full-document accuracy) — یعنی حالتی که در آن تک‌تک فیلدها بدون هیچ خطایی درست باشند — همچنان یک چالش باقی مانده است. lift در این شاخص ۲۰.۹٪ کسب کرد و پیچھے‌تر از Datalab API (۴۴.۴٪) و Gemini Flash 3.5 (۴۰.۰٪) قرار گرفت. این شکاف نشان می‌دهد که اگرچه استخراج در سطح فیلد بسیار قابل اعتماد است، اما اتوماسیون بدون دخالت انسان (Zero-touch automation) برای اسناد طولانی و پیچیده، همچنان به بازبینی انسانی یا لایه‌های تأیید اضافی نیاز دارد.

استقرار و لایسنس

توسعه‌دهندگان می‌توانند lift را از طریق HuggingFace برای تست‌های محلی یا از طریق سرور vLLM برای محیط تولید (Production) اجرا کنند. کدها تحت لایسنس Apache 2.0 منتشر شده‌اند، اما وزن‌های مدل از یک لایسنس اصلاح‌شدهٔ OpenRAIL-M استفاده می‌کنند. این لایسنس باعث می‌شود مدل برای اهداف پژوهشی، استفاده‌های شخصی و استارتاپ‌هایی که سرمایه یا درآمد کمتر از ۵ میلیون دلار دارند، رایگان باقی بماند.

برای تسهیل شروع کار، تیم سازنده یک ابزار خط فرمان (CLI) به نام lift-pdf و یک محیط گرافیکی مبتنی بر Streamlit به نام «Schema Studio» ارائه داده است تا کاربران بتوانند پیش از استقرار نهایی، طرح‌واره‌های استخراج خود را بسازند و آزمایش کنند.

گردش کار متخصصان

برای کسانی که در حال پیاده‌سازی lift در محیط عملیاتی هستند، یک گردش کار چهار مرحله‌ای توصیه می‌شود: نخست، تعریف طرح‌واره با توضیحات دقیق و شفاف؛ دوم، اجرای فرآیند استخراج؛ سوم، شاخه‌بندی نتایج (ارسال موارد null یا فراخوانی‌های شکست‌خورده به بازبینی انسانی)؛ و چهارم، اعتبارسنجی نهایی JSON در مراحل پایین‌دستی برای شناسایی هرگونه شکست خاموش (Silent Fallback) در سیستم.

این رویکرد، PDF را از یک «جعبه سیاه» متنی به یک جریان دادهٔ قابل اعتماد تبدیل می‌کند. با تغییر تمرکز از مهندسی پرامپت (Prompt Engineering) — هنر سؤال درست پرسیدن — به مهندسی طرح‌واره (Schema Engineering)، خط لوله‌های پردازش فاکتورها و بررسی قراردادها به شدت پایدارتر می‌شوند.

این تحول، نشان‌دهنده یک روند گسترده‌تر در هوش مصنوعی است: حرکت از ایده «یک مدل برای همه کارها» به سمت وزن‌های کوچک و بسیار تخصصی که در یک وظیفهٔ خاص و باارزش، استاد هستند. مدل lift با بهینه‌سازی برای اعتبار ساختاری و توانایی خودداری از پاسخ اشتباه، یک نقشه راه برای استخراج داده‌های سازمانی قابل اعتماد ارائه می‌دهد.

گام بعدی شما

از Schema Studio برای طراحی دقیق ساختار داده‌های خود و آزمایش آن‌ها استفاده کنید.
برای بهینه‌سازی تأخیر در اسناد بسیار طولانی، پرچم --page-range را در ابزار CLI تست کنید تا محدوده صفحات پردازش شده را مدیریت کنید.
یک لایه بازبینی انسانی برای مدیریت فیلدهای null در خط لولهٔ داده‌های خود تعریف کنید تا کیفیت نهایی تضمین شود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مکانیسم رمزگشایی محدود

مدیریت پیچیدگی و غیبت داده‌ها

ویژگی‌های کلیدی در مدیریت اسناد عبارتند از:

پشتیبانی از چند صفحه: مدل کل سند را در یک مرحله (Single Pass) پردازش می‌کند. این قابلیت به مدل اجازه می‌دهد مقادیاتی را که در شکستگی‌های صفحه (Page Breaks) پخش شده‌اند، به‌درستی شکار و یکپارچه کند.
انعطاف طرح‌واره: این مدل از انواع داده‌ها شامل رشته‌ها (Strings)، اعداد (Numbers)، اعداد صحیح (Integers)، مقادیر بولی (Booleans)، آرایه‌ها (Arrays) و اشیاء تودرتو (Nested Objects) پشتیبانی می‌کند.
راهنمایی (Guidance): توضیحات نوشته شده برای هر فیلد در داخل طرح‌واره، به عنوان اصلی‌ترین اهرم برای بهبود دقت در مواجهه با داده‌های مبهم عمل می‌کنند.

محک مدل ۹ میلیاردی

استقرار و لایسنس

گردش کار متخصصان

گام بعدی شما

از Schema Studio برای طراحی دقیق ساختار داده‌های خود و آزمایش آن‌ها استفاده کنید.
برای بهینه‌سازی تأخیر در اسناد بسیار طولانی، پرچم --page-range را در ابزار CLI تست کنید تا محدوده صفحات پردازش شده را مدیریت کنید.
یک لایه بازبینی انسانی برای مدیریت فیلدهای null در خط لولهٔ داده‌های خود تعریف کنید تا کیفیت نهایی تضمین شود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Datalab: استخراج ساختاریافته با سرعت ۳ برابر Gemini Flash

مکانیسم رمزگشایی محدود

مدیریت پیچیدگی و غیبت داده‌ها

محک مدل ۹ میلیاردی

استقرار و لایسنس

گردش کار متخصصان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Datalab: استخراج ساختاریافته با سرعت ۳ برابر Gemini Flash

مکانیسم رمزگشایی محدود

مدیریت پیچیدگی و غیبت داده‌ها

محک مدل ۹ میلیاردی

استقرار و لایسنس

گردش کار متخصصان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Datalab: استخراج ساختاریافته با سرعت ۳ برابر Gemini Flash

مکانیسم رمزگشایی محدود

مدیریت پیچیدگی و غیبت داده‌ها

محک مدل ۹ میلیاردی

استقرار و لایسنس

گردش کار متخصصان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Datalab: استخراج ساختاریافته با سرعت ۳ برابر Gemini Flash

مکانیسم رمزگشایی محدود

مدیریت پیچیدگی و غیبت داده‌ها

محک مدل ۹ میلیاردی

استقرار و لایسنس

گردش کار متخصصان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران