مودورا: سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر هوش مصنوعی مولد

اسناد نیمه‌ساختاریافته مجموعه‌ای از عناصر داده‌ای متنوع و درهم‌تنیده را در خود جای می‌دهند؛ عناصری همچون جداول، نمودارها و بندهای سلسله‌مراتبی که در چیدمان‌های گوناگونی سازمان‌دهی شده‌اند. این نوع اسناد در حوزه‌های مختلف بسیار رایج هستند و بخش قابل‌توجهی از داده‌های دنیای واقعی را تشکیل می‌دهند. با این حال، روش‌های موجود در پاسخ‌گویی به سؤال‌های زبان طبیعی درباره این اسناد با سه چالش فنی اساسی مواجه‌اند.

نخستین چالش این است که عناصر استخراج‌شده توسط تکنیک‌هایی مانند شناسایی نوری کاراکتر (OCR) اغلب پراکنده و بدون زمینه معنایی اولیه هستند و برای تحلیل کافی نیستند. دوم اینکه رویکردهای موجود فاقد نمایش‌های مؤثری برای ثبت ساختارهای سلسله‌مراتبی درون اسناد و حفظ تمایزهای مربوط به چیدمان هستند. سوم اینکه پاسخ‌گویی به سؤال‌ها اغلب مستلزم بازیابی و هماهنگ‌سازی اطلاعات مرتبطی است که در بخش‌ها یا صفحات متعدد پراکنده‌اند.

برای مقابله با این مشکلات، سیستم مودورا (MoDora) معرفی شده است؛ یک سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر مدل زبانی بزرگ. این سیستم از یک استراتژی تجمیع هم‌ترازی محلی استفاده می‌کند تا عناصر تجزیه‌شده توسط OCR را به کامپوننت‌های آگاه از چیدمان تبدیل کند و استخراج اطلاعات نوع‌محور را برای کامپوننت‌هایی با عنوان‌های سلسله‌مراتبی یا عناصر غیر متنی انجام دهد.

مودورا همچنین درخت همبستگی کامپوننت‌ها (CCTree) را طراحی کرده است تا کامپوننت‌ها را به‌صورت سلسله‌مراتبی سازمان‌دهی کند و روابط بین کامپوننت‌ها و تمایزهای چیدمانی را از طریق فرآیند خلاصه‌سازی آبشاری صعودی مدل‌سازی کند.

علاوه بر این، مودورا استراتژی بازیابی آگاه از نوع سؤال را پیشنهاد می‌دهد که شامل پارتیشن‌بندی شبکه‌ای مبتنی بر چیدمان برای بازیابی مکان‌محور و هرس راهنمای مدل زبانی بزرگ برای بازیابی معنایی است. آزمایش‌ها نشان داده‌اند که مودورا در وظایف تحلیل اسناد از روش‌های پایه عملکرد بهتری دارد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مودورا: سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر هوش مصنوعی مولد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مودورا: سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر هوش مصنوعی مولد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مودورا: سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر هوش مصنوعی مولد

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مودورا: سیستم تحلیل اسناد نیمه‌ساختاریافته مبتنی بر هوش مصنوعی مولد

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران