دوران هوش مصنوعی همهمنظوره به یک دیوار سخت برخورد کرده است: فقدان دقت در کارهای قطعی. اگر هنوز برای استخراج دادههای ساختاریافته به مدلهای Mini تکیه میکنید، باید بدانید که احتمالاً با نرخ خطای بالایی دستوپنجه نرم میکنید.
اکثر توسعهدهندگان برای تعادل میان هزینه و عملکرد از مدلهای Flash یا Mini استفاده میکنند. اما این مدلها در وظایفی مثل تعیین مختصات دقیق XY در یک PDF ۵۰ صفحهای، دچار توهم (Hallucination) میشوند. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای مدلهای زبانی در پردازش دادههای ساختاریافته اشاره کردیم، ترنسفورمرها برای خلاقیت و ظرافت طراحی شدهاند، نه برای دقت صلب شبکههای عصبی عمیق (DNN) دهه ۹۰.
برای حل این مشکل، Interfaze از یک معماری ترکیبی بهره میبرد که رمزکنندههای تخصصی شبکه عصبی پیچشی (CNN) و DNN را با یک رمزگشای ترنسفورمر همهمنظوره ادغام میکند. به نقل از گزارش فنی منتشر شده در ۱۱ مه ۲۰۲۶، این رویکرد اجازه میدهد مدل متادیتای قابلاعتمادی (مانند جعبههای محصورکننده) تولید کند و در عین حال قدرت استدلال یک مدل زبانی بزرگ (LLM) را حفظ نماید.

بر اساس مستندات این مدل، نتایج در سه حوزه کلیدی خیرهکننده است:
- بینایی و OCR: کسب امتیاز ۷۰.۷٪ در OCRBench V2 و ۸۵.۷٪ در olmOCR.
- صدا: نرخ خطای کلام (WER) ۲.۴٪ در VoxPopuli و سرعت استخراج ۱.۵ برابر بیشتر از Deepgram Nova-3.
- خروجی ساختاریافته: پیشتازی در بنچمارک SOB برای پر کردن دقیق طرحوارههای JSON.

مشخصات فنی شامل پنجره متنی (Context Window) یک میلیون توکنی و حداکثر ۳۲ هزار توکن خروجی است. قیمتگذاری نیز با مدلهای Mini همتراز است: ۱.۵۰ دلار برای هر میلیون توکن ورودی و ۳.۵۰ دلار برای خروجی. یک ویژگی متمایز، «فعالسازی جزئی مدل» است که در آن توسعهدهندگان با استفاده از تگهای <task> در پرامپت سیستم، تنها بخشهای خاصی از مدل را فعال میکنند تا هزینه استنتاج (Inference) در کارهای صرفاً OCR یا STT کاهش یابد.

این چرخش نشان میدهد آینده هوش مصنوعی کارآمد، تنها در کوچکتر کردن مدلهای همهمنظوره نیست، بلکه در «تخصصگرایی ماژولار» نهفته است. با ادغام رمزکنندههای تخصصی در یک فضای برداری مشترک، Interfaze اجازه میدهد جریانهای کاری پیشبینیپذیر بدون هزینه بالای آموزش مجدد CNNهای مستقل ساخته شوند.
گام بعدی شما
- دسترسی به مدل از طریق SDK سازگار با OpenAI را امتحان کنید.
- برای کاهش هزینههای محاسباتی، تگهای
<task>را در سیستم پرامپت پیادهسازی کنید. - منتظر بهروزرسانی قابلیتهای پردازش بومی ویدیو باشید.
این تنها آغاز ماجراست؛ اثر این رویکرد ماژولار بر آینده مدلهای لبه را در گزارش بعدی بررسی خواهیم کرد.




گفتگو