اگر ساعتها وقت خود را صرف اصلاح دستی جداول بههمریخته پس از اسکن PDF کردهاید، در واقع در حال جنگ با یک تکنولوژی شکستخورده هستید. باید بدانید که عصر تبدیل متن بر اساس تکتک حروف به پایان رسیده و جای خود را به «دیدن» ساختار سند داده است.
ابزارهای قدیمی مثل Tesseract شبیه کسی هستند که فقط حروف را میبیند اما نمیفهمد آنها در چه صفحهای قرار دارند. اما Zerox از مدلهای زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — استفاده میکند تا کل صفحه را یکباره «ببیند». همانطور که در تحلیلهای قبلی ما دربارهی مدلهای چندوجهی (Multimodal) — مدلی که همزمان متن، عکس و صدا را میفهمد، شبیه به حسهای ما در مواجهه با دنیا — اشاره کردیم، توانایی درک بصری، بازی را برای استخراج دادهها تغییر داده است.
طبق مستندات این ابزار، Zerox (قابل نصب با دستور pip install py-zerox) که در ۲۹ مه ۲۰۲۶ عرضه شد، صفحات PDF را به جای تحلیل کاراکتری، از طریق مدلهای بینایی مانند GPT-4o و Claude پردازش میکند. ویژگیهای کلیدی این سیستم عبارتند از:
- جداول: حفظ کامل ساختار سلولها و تراز ستونها.
- دستخط: تبدیل یادداشتهای دستی به متن دیجیتال قابل جستجو.
- چیدمان: درک سلسلهمراتب بصری در اسکرینشاتهای رابط کاربری (UI).
- زبان: پشتیبانی بومی از چینی و ژاپنی بدون نیاز به موتورهای OCR تخصصی.
این تغییر از «تشخیص کاراکتر» به «درک معنای بصری»، در واقع تولد OCR 2.0 است. برای شما به عنوان کاربر، این یک معاوضه است: شما سرعت رایگان و محلی Tesseract را با دقت بالای API مدلهای زبانی عوض میکنید. در واقع، مشکل «دادههای بدون ساختار» حالا به یک هزینه پیشبینیپذیر در صورتحساب API تبدیل شده است.
گام بعدی شما
- مستندات
py-zeroxرا بررسی کنید تا ببینید کدام مدل بینایی با نوع اسناد شما سازگارتر است. - یک نمونه از پیچیدهترین جداول خود را با GPT-4o تست کنید تا نرخ خطا را بسنجید.
- بررسی کنید آیا هزینه API برای حجم اسناد شما توجیه اقتصادی دارد یا خیر.
ama داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو