Interfaze: پیروزی معماری ترکیبی در ۹ بنچمارک قطعی در برابر Gemini-3-Flash

دوران هوش مصنوعی همه‌منظوره به یک دیوار سخت برخورد کرده است: فقدان دقت در کارهای قطعی. اگر هنوز برای استخراج داده‌های ساختاریافته به مدل‌های Mini تکیه می‌کنید، باید بدانید که احتمالاً با نرخ خطای بالایی دست‌وپنجه نرم می‌کنید.

اکثر توسعه‌دهندگان برای تعادل میان هزینه و عملکرد از مدل‌های Flash یا Mini استفاده می‌کنند. اما این مدل‌ها در وظایفی مثل تعیین مختصات دقیق XY در یک PDF ۵۰ صفحه‌ای، دچار توهم (Hallucination) می‌شوند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های مدل‌های زبانی در پردازش داده‌های ساختاریافته اشاره کردیم، ترنسفورمرها برای خلاقیت و ظرافت طراحی شده‌اند، نه برای دقت صلب شبکه‌های عصبی عمیق (DNN) دهه ۹۰.

برای حل این مشکل، Interfaze از یک معماری ترکیبی بهره می‌برد که رمزکننده‌های تخصصی شبکه عصبی پیچشی (CNN) و DNN را با یک رمزگشای ترنسفورمر همه‌منظوره ادغام می‌کند. به نقل از گزارش فنی منتشر شده در ۱۱ مه ۲۰۲۶، این رویکرد اجازه می‌دهد مدل متادیتای قابل‌اعتمادی (مانند جعبه‌های محصورکننده) تولید کند و در عین حال قدرت استدلال یک مدل زبانی بزرگ (LLM) را حفظ نماید.

How Interfaze works: a hybrid architecture combining DNNs/CNNs with a transformer decoder, plus task-specific adapters and a built-in infra foundation for web index, scraping, and a code sandbox.

بر اساس مستندات این مدل، نتایج در سه حوزه کلیدی خیره‌کننده است:

بینایی و OCR: کسب امتیاز ۷۰.۷٪ در OCRBench V2 و ۸۵.۷٪ در olmOCR.
صدا: نرخ خطای کلام (WER) ۲.۴٪ در VoxPopuli و سرعت استخراج ۱.۵ برابر بیشتر از Deepgram Nova-3.
خروجی ساختاریافته: پیشتازی در بنچمارک SOB برای پر کردن دقیق طرح‌واره‌های JSON.

Dense magazine page with text and three figures detected, with red boxes around each illustration

مشخصات فنی شامل پنجره متنی (Context Window) یک میلیون توکنی و حداکثر ۳۲ هزار توکن خروجی است. قیمت‌گذاری نیز با مدل‌های Mini هم‌تراز است: ۱.۵۰ دلار برای هر میلیون توکن ورودی و ۳.۵۰ دلار برای خروجی. یک ویژگی متمایز، «فعال‌سازی جزئی مدل» است که در آن توسعه‌دهندگان با استفاده از تگ‌های <task> در پرامپت سیستم، تنها بخش‌های خاصی از مدل را فعال می‌کنند تا هزینه استنتاج (Inference) در کارهای صرفاً OCR یا STT کاهش یابد.

Handwritten poem used as the input image for the partial activation OCR example

این چرخش نشان می‌دهد آینده هوش مصنوعی کارآمد، تنها در کوچک‌تر کردن مدل‌های همه‌منظوره نیست، بلکه در «تخصص‌گرایی ماژولار» نهفته است. با ادغام رمزکننده‌های تخصصی در یک فضای برداری مشترک، Interfaze اجازه می‌دهد جریان‌های کاری پیش‌بینی‌پذیر بدون هزینه بالای آموزش مجدد CNNهای مستقل ساخته شوند.

گام بعدی شما

دسترسی به مدل از طریق SDK سازگار با OpenAI را امتحان کنید.
برای کاهش هزینه‌های محاسباتی، تگ‌های <task> را در سیستم پرامپت پیاده‌سازی کنید.
منتظر به‌روزرسانی قابلیت‌های پردازش بومی ویدیو باشید.

این تنها آغاز ماجراست؛ اثر این رویکرد ماژولار بر آینده مدل‌های لبه را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

How Interfaze works: a hybrid architecture combining DNNs/CNNs with a transformer decoder, plus task-specific adapters and a built-in infra foundation for web index, scraping, and a code sandbox.

بر اساس مستندات این مدل، نتایج در سه حوزه کلیدی خیره‌کننده است:

بینایی و OCR: کسب امتیاز ۷۰.۷٪ در OCRBench V2 و ۸۵.۷٪ در olmOCR.
صدا: نرخ خطای کلام (WER) ۲.۴٪ در VoxPopuli و سرعت استخراج ۱.۵ برابر بیشتر از Deepgram Nova-3.
خروجی ساختاریافته: پیشتازی در بنچمارک SOB برای پر کردن دقیق طرح‌واره‌های JSON.

Dense magazine page with text and three figures detected, with red boxes around each illustration

Handwritten poem used as the input image for the partial activation OCR example

گام بعدی شما

دسترسی به مدل از طریق SDK سازگار با OpenAI را امتحان کنید.
برای کاهش هزینه‌های محاسباتی، تگ‌های <task> را در سیستم پرامپت پیاده‌سازی کنید.
منتظر به‌روزرسانی قابلیت‌های پردازش بومی ویدیو باشید.

این تنها آغاز ماجراست؛ اثر این رویکرد ماژولار بر آینده مدل‌های لبه را در گزارش بعدی بررسی خواهیم کرد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Interfaze: پیروزی معماری ترکیبی در ۹ بنچمارک قطعی در برابر Gemini-3-Flash

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Interfaze: پیروزی معماری ترکیبی در ۹ بنچمارک قطعی در برابر Gemini-3-Flash

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Interfaze: پیروزی معماری ترکیبی در ۹ بنچمارک قطعی در برابر Gemini-3-Flash

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Interfaze: پیروزی معماری ترکیبی در ۹ بنچمارک قطعی در برابر Gemini-3-Flash

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران