تصور کنید یک دستیار هوشمند را برای مدیریت خاطرات زندگی خود طراحی کردهاید، اما او نمیتواند تشخیص دهد فردی که در عکسهای سال ۲۰۲۰ حضور دارد، همان شخص است که در عکسهای ۲۰۲۶ دیده میشود. این دقیقاً نقطهی شکست فعلی مدلهای زبانی در مواجهه با دادههای بلندمدت است.
باید بدانید که عامل (Agent)های هوش مصنوعی امروز در تولید خلاصههای باورپذیر موفقاند، اما در انجام وظیفه حساس «تفکیک هویتهای تکرارشونده» شکست میخورند. بر اساس یافتههای منتشر شده در ۱۶ ژوئن ۲۰۲۶، مدلها بهجای استدلال بر اساس شواهد، دچار توهم (Hallucination) در ایجاد انسجام اجتماعی میشوند.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای حافظه در مدلهای زبانی اشاره کردیم، مدیریت دادههای پراکنده همواره یک گلوگاه بوده است. در این مورد، استخراج پروفایل از سوابق چندوجهی (Multimodal) — یعنی ترکیب عکسها، برچسبهای زمانی و مکانها — فرآیندی شبیه به JOIN در پایگاه دادههای حجیم و نویزی است. از آنجا که آلبومهای واقعی حاوی اطلاعات حساس هستند، امکان استفاده از آنها برای بنچمارکهای عمومی وجود نداشت.
برای حل این مشکل، چارچوب PAL-Bench با استفاده از یک «کامپایلر شواهد» (Evidence Compiler)، جهانهای مصنوعی خلق کرده است. طبق گزارش وبسایت arxiv.org، این بنچمارک شامل ۳۶,۶۵۹ رکورد عکس برای ۵۰ کاربر مصنوعی است که در آن عاملها باید ۲,۷۹۹ هدف خاص را در مورد حقایق و روابط مالکان شناسایی کنند.
نتایج آزمایش روی هفت سیستم مختلف، نکات کلیدی زیر را برجسته میکند:
- شکاف عمیق میان «خلاصهسازی محتمل» و «بازسازی صادقانه» وجود دارد.
- مدلها در پیوند دادن هویتهای تکرارشونده و ارجاع دقیق به منبع شواهد (Provenance) ضعیف عمل میکنند.
- سیستم PAL-TRACE با تثبیت پیوندهای هویتی پیش از استخراج حقایق، بهترین عملکرد را داشت، اما همچنان نتوانست مشکل تفکیک هویت را بهطور کامل حل کند.
این شکست نشان میدهد که هدف جامعه فنی باید از «درک چندوجهی ساده» به سمت «تفکیک موجودیتهای ادراکی» (Perceptual Entity Resolution) تغییر کند تا مدلها بتوانند نقشهی هویتی ثابتی را در جریان زمانی دادهها حفظ کنند.
گام بعدی شما
- بررسی متدولوژی PAL-TRACE برای درک نحوه تثبیت پیوندهای هویتی.
- اولویت دادن به پروتکلهای تفکیک هویت در توسعه عاملهای شخصیساز.
- رصد ادغام بنچمارکهای مبتنی بر شواهد در نسل بعدی مدلهای On-device.
اما این چالش تنها بخشی از معمای بزرگتر است؛ برای درک چگونگی مدیریت حافظه در مقیاس میلیاردها توکن، به تحلیل ما دربارهی معماریهای RAG پیشرفته مراجعه کنید.




گفتگو