پژوهشگران چارچوبی نوین برای جستجوی عمیق چندوجهی در افقهای بلند طراحی کردهاند. «الامام-سرچر» (LMM-Searcher) با چالش مدیریت اطلاعات ناهمگون و هزینههای بالای پردازش در عملیات جستجوی طولانی مقابله میکند.
این چارچوب از مکانیزم نمایش بصری مبتنی بر فایل (file-based visual representation) بهره میبرد. داراییهای بصری به سیستم فایل خارجی منتقل میشوند و با شناسههای متنی سبک جایگزین میشوند. بدین ترتیب، اطلاعات چندوجهی حفظ میماند در حالی که سربار متنی به حداقل میرسد.
{{img:0}}
عامل هوشمند به ابزار اختصاصی «بارگیری تصویر» (fetch-image) دسترسی دارد. این ابزار امکان بارگذاری تدریجی و درخواستی تصاویر را فراهم میکند و ادراک بصری فعال را ممن میسازد.
خط لوله سنتز دادهها، پرسوجوهایی تولید میکند که نیازمند استدلال چندمدال چندمرحلهای (cross-modal multi-hop reasoning) هستند. نتیجه این فرآیند، ۱۲ هزار مسیر آموزشی با کیفیت بالاست که برای تنظیم دقیق مدل Qwen3-VL-Thinking-30A3B به کار میروند.
آزمایشها بر چهار معیار ارزیابی (benchmark) نشاندهنده عملکرد چشمگیر این رویکرد است. سیستم به افقهای جستجوی ۱۰۰ گامی رسیده و بهترین نتایج را در میان مدلهای متنباز در معیارهای چالشبرانگیزی مانند MM-BrowseComp و MMSearch-Plus کسب کرده است.
این روش از انفجار متن جلوگیری میکند و سیگنالهای بصری حیاتی را در سراسر عملیات طولانی حفظ مینماید.

گفتگو