PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

تصور کنید یک دستیار هوشمند را برای مدیریت خاطرات زندگی خود طراحی کرده‌اید، اما او نمی‌تواند تشخیص دهد فردی که در عکس‌های سال ۲۰۲۰ حضور دارد، همان شخص است که در عکس‌های ۲۰۲۶ دیده می‌شود. این دقیقاً نقطه‌ی شکست فعلی مدل‌های زبانی در مواجهه با داده‌های بلندمدت است.

باید بدانید که عامل (Agent)های هوش مصنوعی امروز در تولید خلاصه‌های باورپذیر موفق‌اند، اما در انجام وظیفه حساس «تفکیک هویت‌های تکرارشونده» شکست می‌خورند. بر اساس یافته‌های منتشر شده در ۱۶ ژوئن ۲۰۲۶، مدل‌ها به‌جای استدلال بر اساس شواهد، دچار توهم (Hallucination) در ایجاد انسجام اجتماعی می‌شوند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های حافظه در مدل‌های زبانی اشاره کردیم، مدیریت داده‌های پراکنده همواره یک گلوگاه بوده است. در این مورد، استخراج پروفایل از سوابق چندوجهی (Multimodal) — یعنی ترکیب عکس‌ها، برچسب‌های زمانی و مکان‌ها — فرآیندی شبیه به JOIN در پایگاه داده‌های حجیم و نویزی است. از آنجا که آلبوم‌های واقعی حاوی اطلاعات حساس هستند، امکان استفاده از آن‌ها برای بنچمارک‌های عمومی وجود نداشت.

برای حل این مشکل، چارچوب PAL-Bench با استفاده از یک «کامپایلر شواهد» (Evidence Compiler)، جهان‌های مصنوعی خلق کرده است. طبق گزارش وب‌سایت arxiv.org، این بنچمارک شامل ۳۶,۶۵۹ رکورد عکس برای ۵۰ کاربر مصنوعی است که در آن عامل‌ها باید ۲,۷۹۹ هدف خاص را در مورد حقایق و روابط مالکان شناسایی کنند.

نتایج آزمایش روی هفت سیستم مختلف، نکات کلیدی زیر را برجسته می‌کند:

شکاف عمیق میان «خلاصه‌سازی محتمل» و «بازسازی صادقانه» وجود دارد.
مدل‌ها در پیوند دادن هویت‌های تکرارشونده و ارجاع دقیق به منبع شواهد (Provenance) ضعیف عمل می‌کنند.
سیستم PAL-TRACE با تثبیت پیوندهای هویتی پیش از استخراج حقایق، بهترین عملکرد را داشت، اما همچنان نتوانست مشکل تفکیک هویت را به‌طور کامل حل کند.

این شکست نشان می‌دهد که هدف جامعه فنی باید از «درک چندوجهی ساده» به سمت «تفکیک موجودیت‌های ادراکی» (Perceptual Entity Resolution) تغییر کند تا مدل‌ها بتوانند نقشه‌ی هویتی ثابتی را در جریان زمانی داده‌ها حفظ کنند.

گام بعدی شما

بررسی متدولوژی PAL-TRACE برای درک نحوه تثبیت پیوندهای هویتی.
اولویت دادن به پروتکل‌های تفکیک هویت در توسعه عامل‌های شخصی‌ساز.
رصد ادغام بنچمارک‌های مبتنی بر شواهد در نسل بعدی مدل‌های On-device.

اما این چالش تنها بخشی از معمای بزرگ‌تر است؛ برای درک چگونگی مدیریت حافظه در مقیاس میلیاردها توکن، به تحلیل ما درباره‌ی معماری‌های RAG پیشرفته مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نتایج آزمایش روی هفت سیستم مختلف، نکات کلیدی زیر را برجسته می‌کند:

شکاف عمیق میان «خلاصه‌سازی محتمل» و «بازسازی صادقانه» وجود دارد.
مدل‌ها در پیوند دادن هویت‌های تکرارشونده و ارجاع دقیق به منبع شواهد (Provenance) ضعیف عمل می‌کنند.
سیستم PAL-TRACE با تثبیت پیوندهای هویتی پیش از استخراج حقایق، بهترین عملکرد را داشت، اما همچنان نتوانست مشکل تفکیک هویت را به‌طور کامل حل کند.

گام بعدی شما

بررسی متدولوژی PAL-TRACE برای درک نحوه تثبیت پیوندهای هویتی.
اولویت دادن به پروتکل‌های تفکیک هویت در توسعه عامل‌های شخصی‌ساز.
رصد ادغام بنچمارک‌های مبتنی بر شواهد در نسل بعدی مدل‌های On-device.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران