تصور کنید تمام آرشیوهای کاغذی و اسکنشدهی سازمانتان را در چند ساعت به دادههای ساختاریافته تبدیل کنید. اگر هنوز برای استخراج متن از سرویسهای ابری گرانقیمت استفاده میکنید، باید بدانید که دوران این وابستگی به پایان رسیده است.
Allen AI بهتازگی پیشنمایشی از مدل olmOCR-7B-0225-preview را منتشر کرده است؛ یک مدل بینایی-زبانی با وزنهای باز (Open Weights) که صفحات اسکنشده را به متنهای ساختاریافته تبدیل میکند. به نقل از مستندات این پروژه در Hugging Face، این مدل از معماری ۷ میلیارد پارامتری بهره میبرد.
این ابزار بر پایه مدل Qwen2-VL-7B-Instruct و با استفاده از مجموعهدادهی olmOCR-mix-0225 مورد تنظیم دقیق (Fine-tuning) قرار گرفته است. طبق اعلام تیم توسعهدهنده، فرآیند کار به این صورت است:
- دریافت تصویر سند با حداکثر ابعاد ۱۰۲۴ پیکسل.
- خروجی در قالب JSON شامل زبان اصلی، اصلاح چرخش، تشخیص جدول و استخراج متن.
- استفاده از ابزار sglang برای استنتاج (Inference) بهینه و سریع در مقیاس میلیونها سند.
همانطور که در تحلیل قبلی ما دربارهی مدلهای چندوجهی اشاره کردیم، تخصصگرایی در مدلهای زبانی روند غالب سال ۲۰۲۵ است و olmOCR دقیقاً در همین مسیر حرکت میکند.
برای استفاده از این سیستم، کاربران باید صفحات PDF را به فرمت base64 PNG تبدیل کرده و از پکیج پایتونی olmocr برای ساخت پرامپتها استفاده کنند. اگرچه این مدل تحت لایسنس Apache 2.0 منتشر شده، اما Allen AI تأکید کرده است که استفاده از آن فعلاً به حوزههای پژوهشی و آموزشی محدود میشود و برای کاربردهای تجاری باید به دستورالعملهای «استفاده مسئولانه» مراجعه کرد.
این مدل در واقع یک مدل بنیادی (Foundation Model) عمومی را به یک ابزار تخصصی برای اسناد تبدیل کرده است. این استراتژی نشان میدهد که صنعت به جای آموزش مدلهای غولآسا از صفر، به سمت بهینهسازی مدلهای موجود برای کارهای با ارزش بالا حرکت میکند.
اما این تنها بخشی از ماجراست؛ تأثیر این مدل بر آیندهی مدیریت دادههای سازمانی و کاهش هزینههای عملیاتی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر پژوهشگر هستید، پکیج olmocr را در محیط پایتون نصب و روی اسناد خود تست کنید.
- هزینههای فعلی APIهای OCR خود را با هزینه اجرای محلی این مدل مقایسه کنید.
- مستندات لایسنس Apache 2.0 را برای بررسی محدودیتهای تجاری مطالعه کنید.




گفتگو