سیستمهای فعلی تشخیص اسناد با یک مشکل اساسی دستوپنجه نرم میکنند: اسناد را صرفاً بهعنوان تصاویر دوبعدی میبینند. این رویکرد اطلاعات ساختاری ارزشمندی را نادیده میگیرد.
اسناد فنی مانند نقشههای مهندسی یا نتهای موسیقی از ساختارهای قراردادی پیروی میکنند. پژوهشگران پیشنهاد کردند بهجای تشخیص بصری، آن را بهعنوان وظیفه رونویسی (transcription) در نظر بگیریم. هدف: تبدیل اسناد به رکوردهای ساختاریافته.
ایده اصلی طراحی سوگیریهای استقرایی رابطهای (relational inductive biases) است. این سوگیریها دانش ساختاری خاص هر نوع سند را در معماری مدل تعبیه میکنند.
تیم پژوهشی یک معماری پایه ترانسفورمر (transformer) توسعه داد که قابلیت تطبیق با ساختارهای متنوع را دارد. آزمایشها شامل نتهای تکصدا، نقشههای شکلی و نقشههای ساده مهندسی بودند.
یک دستاورد کلیدی: توسعه سوگیری برای گرافهای بدون محدودیت (unrestricted graph structures). این نوآوری، اولین مدل سرتاسری برای رونویسی نقشههای مهندسی مکانیکی به اطلاعات بههمپیوسته است.
این روش فراتر از تشخیص نوری کاراکتر (OCR) سنتی میرود. چارچوبی سیستماتیک برای طراحی سیستمهای تشخیص اسناد فراهم میکند، بهویژه برای انواعی که کمتر شناخته شدهاند.

گفتگو