دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

۵.۱ درصد. این عدد دقیقاً همان جهشی است که صحت بازشناسی متن در مدل سروری پیشین را از PP-OCRv6، جدیدترین خانواده نویسه‌خوانی نوری (OCR) از PaddleOCR جدا می‌کند. طبق اعلام این تیم در ۲۲ ژوئن ۲۰۲۶، این به‌روزرسانی ثابت می‌کند که مدل‌های تخصصی و سبک هنوز می‌توانند در استخراج متن‌های ساختاریافته، مدل‌های عمومی و حجیم را شکست دهند.

در حالی که مدل‌های بینایی-زبانی (VLM) ترند روز هستند، اما برای ورود داده‌های حساس به سازمان‌ها، هنوز به مدل‌هایی نیاز است که دچار توهم (Hallucination) — مثل دوستی که خاطره‌ای را اشتباه تعریف می‌کند و با اطمینان می‌گوید — نشوند و کاراکترها را دقیقاً همان‌طور که هستند بخوانند. همان‌طور که در تحلیل قبلی ما درباره‌ی اهمیت OCR تخصصی در عصر مدل‌های چندوجهی اشاره کردیم، PP-OCRv6 دقیقاً روی شکاف میان مدل‌های عظیم سروری و نیاز به بهره‌وری در دستگاه‌های لبه (Edge Device) تمرکز کرده است.

زمینه و محدوده کاربرد

PP-OCRv6 برای طیف گسترده‌ای از سناریوهای واقعی طراحی شده است. این مدل قادر است تشخیص و بازشناسی متن را در اسناد اداری، اسکرین‌شات‌ها و نمایشگرهای دیجیتال مدیریت کند. همچنین برای برچسب‌های صنعتی و متن‌های پیچیده در محیط‌های واقعی به‌طور متساوی مؤثر است.

هدف نهایی، تولید خروجی‌های متنی دقیق و ساختاریافته است. این خروجی‌ها برای سامانه‌های پایین‌دستی مثل تجزیه اسناد (Document Parsing)، جست‌وجو، تحلیل داده‌ها و گردش‌کارهای عامل‌محور (Agentic) حیاتی هستند. با کوچک نگه داشتن مدل‌ها، استقرار آن‌ها روی سخت‌افزارهای مختلف منعطف می‌شود.

PP-OCRv6 در Hugging Face: تشخیص متن ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

بر اساس گزارش huggingface.co، این خانواده مدل برای تطبیق با محدودیت‌های سخت‌افزاری به سه سطح تقسیم شده است:

PP-OCRv6_tiny: دارای ۱.۵ میلیون پارامتر (Parameters)، با صحت تشخیص ۸۰.۶٪ (Hmean) و صحت بازشناسی ۷۳.۵٪. این مدل مخصوص دستگاه‌های لبه و دموهای حساس به تأخیر ساخته شده است.
PP-OCRv6_small: دارای ۷.۷ میلیون پارامتر، با صحت تشخیص ۸۴.۱٪ (Hmean) و بازشناسی ۸۱.۳٪. گزینه‌ای ایده‌آل برای موبایل و سرویس‌های چندزبانه متوازن.
PP-OCRv6_medium: دارای ۳۴.۵ میلیون پارامتر، با صحت تشخیص ۸۶.۲٪ (Hmean) و بازشناسی ۸۳.۲٪. ساخته‌شده برای خط لوله‌های سروری و OCR صنعتی.

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

جزئیات فنی

در لایه فنی، PP-OCRv6 چندین بهبود معماری را در مراحل تشخیص و بازشناسی معرفی کرده است:

PPLCNetV4 Backbone: به عنوان ستون فقرات یکپارچه برای هر دو مرحله تشخیص و بازشناسی عمل می‌کند تا ثبات عملکرد در هر سه سطح (tiny, small, medium) تضمین شود.
RepLKFPN برای تشخیص: این یک شبکه هرم ویژگی با هسته بزرگ و سبک (Lightweight Large-Kernel FPN) است. از آن‌جا که برش‌های (Crop) نامناسب منجر به بازشناسی غلط می‌شوند، کیفیت تشخیص حیاتی است. RepLKFPN متن‌های کوچک، متراکم، چرخیده یا کم‌کیفیت را مدیریت می‌کند.
EncoderWithLightSVTR برای بازشناسی: این ماژول مدل‌سازی بستر محلی را با توجه (Attention) جهانی ترکیب می‌کند. این بخش به‌طور خاص برای ارتقای کیفیت در برش‌های متنی دشوار، مانند متن‌های چندزبانه، کاراکترهای صنعتی و نواحی نویزی تصویر طراحی شده است.

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

بازشناسی متن توسط EncoderWithLightSVTR مدیریت می‌شود که بستر محلی را با توجه جهانی می‌آمیزد. این سازوکار دقیقاً نواحی «نویزی» تصویر، مثل برچسب‌های صنعتی یا نمادهای خاص را هدف می‌گیرد؛ جاهایی که OCRهای استاندارد معمولاً شکست می‌خورند.

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

پشتیبانی چندزبانه

پشتیبانی چندزبانه یکپارچه در سطوح متوسط و کوچک، ویژگی کلیدی این نسخه است. یک خانواده مدل به‌تنهایی از ۵۰ زبان پشتیبانی می‌کند. این لیست شامل موارد زیر است:

چینی ساده‌شده (Simplified Chinese)
چینی سنتی (Traditional Chinese)
انگلیسی
ژاپنی
۴۶ زبان با الفبای لاتین

این یکپارچگی نیاز توسعه‌دهندگان به استقرار مدل‌های جداگانه برای هر زبان در یک خط لوله (Pipeline) واحد را حذف می‌کند.

استقرار و یکپارچه‌سازی

انعطاف در استقرار، ستون اصلی این வெளியه است. کاربران می‌توانند از طریق رابط یکپارچه موتور استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی و نه دوره آموزش آن — در نسخه ۳.۷ PaddleOCR، از سه بک‌اند متفاوت استفاده کنند:

۱. Paddle Inference: فرمت بومی Paddle برای دستیابی به بالاترین کارایی.
۲. Transformers: مسیری سازگار با Hugging Face و PyTorch که از طریق تنظیم engine="transformers" برای مدل‌های پشتیبانی‌شده فعال می‌شود.
۳. ONNX Runtime: مسیری قابل‌حمل برای محیط‌های استقرار مبتنی بر ONNX با استفاده از تنظیم engine="onnxruntime".

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامتر از ۱.۵ تا ۳۴.۵ میلیون

توسعه‌دهندگان می‌توانند با دستور pip install paddleocr سریعاً شروع کنند. بک‌اند پیش‌فرض، Paddle Inference با مدل PP-OCRv6_medium است. خروجی‌ها را می‌توان به صورت تصاویر بصری یا JSONهای ساختاریافته دریافت کرد که برای خط لوله‌های تولید بازیابی‌افزا (RAG) — مثل دانش‌آموزی که قبل از جواب دادن، اول کتاب درسی را باز می‌کند و از آن نقل می‌آورد — ضروری هستند.

این ساختار مدولار به معنای آن است که توسعه‌دهندگان دیگر مجبور نیستند بین دقت و سرعت استقرار یکی را انتخاب کنند. با ارائه یک مدل یکپارچه ۵۰ زبانه، PaddleOCR بار عملیاتی نگهداری مدل‌های مجزا برای مناطق مختلف را کاهش می‌دهد.

برای کاربر نهایی، این تغییر به معنای تجزیه سریع‌تر اسناد و خط لوله‌های RAG قابل‌اتکاتر است. وقتی مدلی با این دقت، تا این حد کوچک باشد، هزینه پردازش میلیون‌ها صفحه در مقایسه با استفاده از یک VLM عظیم، به‌شدت کاهش می‌یابد.

توسعه‌دهندگان اکنون باید دمو آنلاین PP-OCRv6 را برای محک زدن انواع اسناد خود در برابر سه سطح موجود آزمایش کنند.

گام بعدی شما

دمو آنلاین PP-OCRv6 را برای محک زدن انواع اسناد خود در سه سطح مختلف آزمایش کنید.
اگر از مدل‌های VLM برای استخراج متن استفاده می‌کنید، هزینه استنتاج خود را با جایگزینی بخش OCR با این مدل‌های سبک مقایسه کنید.
برای استقرار در محیط‌های موبایل، نسخه small را به عنوان نقطه شروع بررسی کنید.

اما داستان بهینه‌سازی حافظه در این مدل‌ها حتی جذاب‌تر است — به بررسی ما درباره تکنیک‌های کوانتش وزن‌ها در مدل‌های کوچک مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه و محدوده کاربرد

PP-OCRv6 در Hugging Face: تشخیص متن ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

بر اساس گزارش huggingface.co، این خانواده مدل برای تطبیق با محدودیت‌های سخت‌افزاری به سه سطح تقسیم شده است:

PP-OCRv6_tiny: دارای ۱.۵ میلیون پارامتر (Parameters)، با صحت تشخیص ۸۰.۶٪ (Hmean) و صحت بازشناسی ۷۳.۵٪. این مدل مخصوص دستگاه‌های لبه و دموهای حساس به تأخیر ساخته شده است.
PP-OCRv6_small: دارای ۷.۷ میلیون پارامتر، با صحت تشخیص ۸۴.۱٪ (Hmean) و بازشناسی ۸۱.۳٪. گزینه‌ای ایده‌آل برای موبایل و سرویس‌های چندزبانه متوازن.
PP-OCRv6_medium: دارای ۳۴.۵ میلیون پارامتر، با صحت تشخیص ۸۶.۲٪ (Hmean) و بازشناسی ۸۳.۲٪. ساخته‌شده برای خط لوله‌های سروری و OCR صنعتی.

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

جزئیات فنی

در لایه فنی، PP-OCRv6 چندین بهبود معماری را در مراحل تشخیص و بازشناسی معرفی کرده است:

PPLCNetV4 Backbone: به عنوان ستون فقرات یکپارچه برای هر دو مرحله تشخیص و بازشناسی عمل می‌کند تا ثبات عملکرد در هر سه سطح (tiny, small, medium) تضمین شود.
RepLKFPN برای تشخیص: این یک شبکه هرم ویژگی با هسته بزرگ و سبک (Lightweight Large-Kernel FPN) است. از آن‌جا که برش‌های (Crop) نامناسب منجر به بازشناسی غلط می‌شوند، کیفیت تشخیص حیاتی است. RepLKFPN متن‌های کوچک، متراکم، چرخیده یا کم‌کیفیت را مدیریت می‌کند.
EncoderWithLightSVTR برای بازشناسی: این ماژول مدل‌سازی بستر محلی را با توجه (Attention) جهانی ترکیب می‌کند. این بخش به‌طور خاص برای ارتقای کیفیت در برش‌های متنی دشوار، مانند متن‌های چندزبانه، کاراکترهای صنعتی و نواحی نویزی تصویر طراحی شده است.

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامترهای ۱.۵ تا ۳۴.۵ میلیون

پشتیبانی چندزبانه

چینی ساده‌شده (Simplified Chinese)
چینی سنتی (Traditional Chinese)
انگلیسی
ژاپنی
۴۶ زبان با الفبای لاتین

استقرار و یکپارچه‌سازی

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامتر از ۱.۵ تا ۳۴.۵ میلیون

توسعه‌دهندگان اکنون باید دمو آنلاین PP-OCRv6 را برای محک زدن انواع اسناد خود در برابر سه سطح موجود آزمایش کنند.

گام بعدی شما

دمو آنلاین PP-OCRv6 را برای محک زدن انواع اسناد خود در سه سطح مختلف آزمایش کنید.
اگر از مدل‌های VLM برای استخراج متن استفاده می‌کنید، هزینه استنتاج خود را با جایگزینی بخش OCR با این مدل‌های سبک مقایسه کنید.
برای استقرار در محیط‌های موبایل، نسخه small را به عنوان نقطه شروع بررسی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

زمینه و محدوده کاربرد

جزئیات فنی

پشتیبانی چندزبانه

استقرار و یکپارچه‌سازی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

زمینه و محدوده کاربرد

جزئیات فنی

پشتیبانی چندزبانه

استقرار و یکپارچه‌سازی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

زمینه و محدوده کاربرد

جزئیات فنی

پشتیبانی چندزبانه

استقرار و یکپارچه‌سازی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

زمینه و محدوده کاربرد

جزئیات فنی

پشتیبانی چندزبانه

استقرار و یکپارچه‌سازی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران