مدلهای زبانی چندوجهی در درک اسناد طولانی با چالشهای جدی مواجه هستند. دوکسیکر این مشکل را با رویکردی ساختاریافته حل میکند که تحلیل سند را به سه مرحله کلیدی تقسیم میکند: تحلیل، محلیسازی و استدلال.
این روش دو مشکل اساسی را هدف قرار میدهد: نخست، نسبت سیگنال به نویز پایین که در آن شواهد مهم در میان صفحات بیربط مدفون میشوند؛ و دوم، کمبود نظارت که در آن مجموعه دادهها تنها پاسخهای نهایی را بدون سیگنالهای استدلالی میانی ارائه میدهند. پژوهشگران برای غلبه بر این محدودیتها، چارچوب آموزشی دو مرحلهای طراحی کردهاند.
در مرحله نخست، تنظیم دقیق نظارتی روی دادههای با کیفیت بالا انجام میشود که از طریق استراتژی مؤثر تقطیر دانش تولید شدهاند. مرحله دوم از بهینهسازی سیاست نسبی گروهی آگاه از شواهد استفاده میکند که همزمان دقت محلیسازی شواهد و کیفیت پاسخ نهایی را بهینه میسازد. این رویکرد دو هدفه تضمین میکند که مدل یاد میگیرد شواهد مرتبط را شناسایی کند و در عین حال پاسخهای صحیح تولید کند.
علاوه بر این، استراتژی تخصیص تفکیک هدایتشده به مدیریت محدودیتهای حافظه هنگام آموزش روی اسناد چندصفحهای کمک میکند و امکان پردازش کارآمد محتوای طولانی را بدون سربار محاسباتی بیش از حد فراهم میسازد.
آزمایشهای گسترده نشان میدهد که دوکسیکر به عملکرد برتر هم در وظایف درون حوزهای و هم برون حوزهای دست مییابد. این مدل تعمیمپذیری قوی از آموزش روی اسناد کوتاه به اسناد فوقالعاده طولانی نشان میدهد. نکته مهم اینکه این روش به طور طبیعی با سیستمهای بازیابی افزودهشده بصری ادغام میشود و پایهای محکم برای پیادهسازی آنها در کاربردهای واقعی فراهم میکند.
دوکسیکر گامی بلند رو به جلو در حوزه هوش مصنوعی اسناد محسوب میشود و مدلها را قادر میسازد تا درباره محتوای بصری و متنی در اسناد گسترده به صورت نظاممند استدلال کنند و در عین حال دقت و کارایی را حفظ نمایند.

گفتگو