اسناد نیمهساختاریافته مجموعهای از عناصر دادهای متنوع و درهمتنیده را در خود جای میدهند؛ عناصری همچون جداول، نمودارها و بندهای سلسلهمراتبی که در چیدمانهای گوناگونی سازماندهی شدهاند. این نوع اسناد در حوزههای مختلف بسیار رایج هستند و بخش قابلتوجهی از دادههای دنیای واقعی را تشکیل میدهند. با این حال، روشهای موجود در پاسخگویی به سؤالهای زبان طبیعی درباره این اسناد با سه چالش فنی اساسی مواجهاند.
نخستین چالش این است که عناصر استخراجشده توسط تکنیکهایی مانند شناسایی نوری کاراکتر (OCR) اغلب پراکنده و بدون زمینه معنایی اولیه هستند و برای تحلیل کافی نیستند. دوم اینکه رویکردهای موجود فاقد نمایشهای مؤثری برای ثبت ساختارهای سلسلهمراتبی درون اسناد و حفظ تمایزهای مربوط به چیدمان هستند. سوم اینکه پاسخگویی به سؤالها اغلب مستلزم بازیابی و هماهنگسازی اطلاعات مرتبطی است که در بخشها یا صفحات متعدد پراکندهاند.
برای مقابله با این مشکلات، سیستم مودورا (MoDora) معرفی شده است؛ یک سیستم تحلیل اسناد نیمهساختاریافته مبتنی بر مدل زبانی بزرگ. این سیستم از یک استراتژی تجمیع همترازی محلی استفاده میکند تا عناصر تجزیهشده توسط OCR را به کامپوننتهای آگاه از چیدمان تبدیل کند و استخراج اطلاعات نوعمحور را برای کامپوننتهایی با عنوانهای سلسلهمراتبی یا عناصر غیر متنی انجام دهد.
مودورا همچنین درخت همبستگی کامپوننتها (CCTree) را طراحی کرده است تا کامپوننتها را بهصورت سلسلهمراتبی سازماندهی کند و روابط بین کامپوننتها و تمایزهای چیدمانی را از طریق فرآیند خلاصهسازی آبشاری صعودی مدلسازی کند.
علاوه بر این، مودورا استراتژی بازیابی آگاه از نوع سؤال را پیشنهاد میدهد که شامل پارتیشنبندی شبکهای مبتنی بر چیدمان برای بازیابی مکانمحور و هرس راهنمای مدل زبانی بزرگ برای بازیابی معنایی است. آزمایشها نشان دادهاند که مودورا در وظایف تحلیل اسناد از روشهای پایه عملکرد بهتری دارد.

گفتگو