پایان عصر OCRهای گران‌قیمت؛ مدل olmOCR بازی را عوض کرد

تصور کنید تمام آرشیوهای کاغذی و اسکن‌شده‌ی سازمانتان را در چند ساعت به داده‌های ساختاریافته تبدیل کنید. اگر هنوز برای استخراج متن از سرویس‌های ابری گران‌قیمت استفاده می‌کنید، باید بدانید که دوران این وابستگی به پایان رسیده است.

Allen AI به‌تازگی پیش‌نمایشی از مدل olmOCR-7B-0225-preview را منتشر کرده است؛ یک مدل بینایی-زبانی با وزن‌های باز (Open Weights) که صفحات اسکن‌شده را به متن‌های ساختاریافته تبدیل می‌کند. به نقل از مستندات این پروژه در Hugging Face، این مدل از معماری ۷ میلیارد پارامتری بهره می‌برد.

این ابزار بر پایه مدل Qwen2-VL-7B-Instruct و با استفاده از مجموعه‌داده‌ی olmOCR-mix-0225 مورد تنظیم دقیق (Fine-tuning) قرار گرفته است. طبق اعلام تیم توسعه‌دهنده، فرآیند کار به این صورت است:

دریافت تصویر سند با حداکثر ابعاد ۱۰۲۴ پیکسل.
خروجی در قالب JSON شامل زبان اصلی، اصلاح چرخش، تشخیص جدول و استخراج متن.
استفاده از ابزار sglang برای استنتاج (Inference) بهینه و سریع در مقیاس میلیون‌ها سند.

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های چندوجهی اشاره کردیم، تخصص‌گرایی در مدل‌های زبانی روند غالب سال ۲۰۲۵ است و olmOCR دقیقاً در همین مسیر حرکت می‌کند.

برای استفاده از این سیستم، کاربران باید صفحات PDF را به فرمت base64 PNG تبدیل کرده و از پکیج پایتونی olmocr برای ساخت پرامپت‌ها استفاده کنند. اگرچه این مدل تحت لایسنس Apache 2.0 منتشر شده، اما Allen AI تأکید کرده است که استفاده از آن فعلاً به حوزه‌های پژوهشی و آموزشی محدود می‌شود و برای کاربردهای تجاری باید به دستورالعمل‌های «استفاده مسئولانه» مراجعه کرد.

این مدل در واقع یک مدل بنیادی (Foundation Model) عمومی را به یک ابزار تخصصی برای اسناد تبدیل کرده است. این استراتژی نشان می‌دهد که صنعت به جای آموزش مدل‌های غول‌آسا از صفر، به سمت بهینه‌سازی مدل‌های موجود برای کارهای با ارزش بالا حرکت می‌کند.

اما این تنها بخشی از ماجراست؛ تأثیر این مدل بر آینده‌ی مدیریت داده‌های سازمانی و کاهش هزینه‌های عملیاتی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

اگر پژوهشگر هستید، پکیج olmocr را در محیط پایتون نصب و روی اسناد خود تست کنید.
هزینه‌های فعلی APIهای OCR خود را با هزینه اجرای محلی این مدل مقایسه کنید.
مستندات لایسنس Apache 2.0 را برای بررسی محدودیت‌های تجاری مطالعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دریافت تصویر سند با حداکثر ابعاد ۱۰۲۴ پیکسل.
خروجی در قالب JSON شامل زبان اصلی، اصلاح چرخش، تشخیص جدول و استخراج متن.
استفاده از ابزار sglang برای استنتاج (Inference) بهینه و سریع در مقیاس میلیون‌ها سند.

گام بعدی شما

اگر پژوهشگر هستید، پکیج olmocr را در محیط پایتون نصب و روی اسناد خود تست کنید.
هزینه‌های فعلی APIهای OCR خود را با هزینه اجرای محلی این مدل مقایسه کنید.
مستندات لایسنس Apache 2.0 را برای بررسی محدودیت‌های تجاری مطالعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر OCRهای گران‌قیمت؛ مدل olmOCR بازی را عوض کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر OCRهای گران‌قیمت؛ مدل olmOCR بازی را عوض کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر OCRهای گران‌قیمت؛ مدل olmOCR بازی را عوض کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر OCRهای گران‌قیمت؛ مدل olmOCR بازی را عوض کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران