چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

اگر هنوز برای کاهش خطاهای عامل‌های هوش مصنوعی (AI Agents) روی تغییر چیدمان ابزارها در پرامپت متمرکز هستید، در واقع در حال جنگ با دشمن اشتباهی هستید. باید بدانید که مشکل اصلی نه در «فراموش کردن» ابزار توسط مدل، بلکه در نحوه تبدیل این شناخت به یک تصمیم نهایی است.

باور رایج در صنعت این بود که مدل‌ها به دلیل پدیده «گم‌شدن در میانه» (Lost-in-the-Middle)، تعاریف ابزارها را در پرامپت‌های طولانی گم می‌کنند. همان‌طور که در پوشش پیشین ما از AdaSTORM و مقیاس‌پذیری استدلال گراف‌ها دیدیم، تصور بر این بود که گلوگاه اصلی، نحوه ارائه تعاریف ابزارها به مدل است. اما تحلیل‌های جدید این فرضیه را به چالش می‌کشد.

به نقل از پژوهشی که در ۱۶ ژوئن ۲۰۲۶ توسط Shiyang Chen و همکارانش در arxiv.org منتشر شد، شکست‌ها در مرحله «خوانش خروجی» (Readout) رخ می‌دهند، نه در مرحله ورودی. بر اساس مستندات این گزارش، تحلیل خطاها در بنچمارک BFCL (Berkeley Function Calling Leaderboard) نتایج تکان‌دهنده‌ای را نشان می‌دهد:

در ۸۰٪ موارد شکست، مکانیسم توجه مدل دقیقاً به ابزار درست اشاره می‌کرد (در حالی که شانس تصادفی تنها ۲۱٪ است).
تنها در ۱۰٪ خطاها، ابزار درست مورد توجه قرار نگرفته بود.
اصلاحات در سطح پرامپت (مانند تغییر ترتیب یا تکرار تعاریف)، تنها ۲۳٪ از خطاها را برطرف کرد.
مداخلات در سطح خوانش خروجی، مانند بایاس لوگیت‌های توجه (Attention-Logit Bias)، بین ۵۹٪ تا ۹۱٪ از خطاها را بازیابی کرد.

این نوع از شکست‌های پنهانی که در لایه‌های درونی مدل رخ می‌دهند، یادآور تحلیل‌های ما درباره مکانیسم‌های شناسایی خطاهای خاموش در عامل‌های هوش مصنوعی است که نشان می‌داد داوران LLM لزوماً قادر به تشخیص تمام نقص‌های عملیاتی در مراحل میانی استدلال نیستند.

برای متخصصان فنی، این یافته مرکز ثقل بهینه‌سازی را از مهندسی پرامپت (Prompt Engineering) به «هدایت بازنمایی» (Representation Steering) منتقل می‌کند. این بدان معناست که افزایش پنجره متنی (Context Window) یا تغییر ترتیب ابزارها، بازدهی نزولی دارند؛ زیرا «بینش» داخلی مدل اغلب درست است، اما نگاشت خروجی آن شکسته شده است. پژوهشگران موفق شدند با استفاده از انتخاب‌گرِ بدون آموزش (Training-free)، نمرات BFCL را در ۵ مدل مختلف ۱۱.۹ امتیاز بهبود بخشند.

گام بعدی شما

بررسی امکان ادغام تکنیک‌های Readout-Steering در موتورهای استنتاج (Inference) بی‌درنگ.
کاهش اتکا به استراتژی‌های بازنویسی پرامپت برای بهبود دقت فراخوانی ابزارها.
پایش اثرات این رویکرد در عامل‌های چندمرحله‌ای (Multi-turn) که وضعیت آن‌ها پویا است.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

در ۸۰٪ موارد شکست، مکانیسم توجه مدل دقیقاً به ابزار درست اشاره می‌کرد (در حالی که شانس تصادفی تنها ۲۱٪ است).
تنها در ۱۰٪ خطاها، ابزار درست مورد توجه قرار نگرفته بود.
اصلاحات در سطح پرامپت (مانند تغییر ترتیب یا تکرار تعاریف)، تنها ۲۳٪ از خطاها را برطرف کرد.
مداخلات در سطح خوانش خروجی، مانند بایاس لوگیت‌های توجه (Attention-Logit Bias)، بین ۵۹٪ تا ۹۱٪ از خطاها را بازیابی کرد.

گام بعدی شما

بررسی امکان ادغام تکنیک‌های Readout-Steering در موتورهای استنتاج (Inference) بی‌درنگ.
کاهش اتکا به استراتژی‌های بازنویسی پرامپت برای بهبود دقت فراخوانی ابزارها.
پایش اثرات این رویکرد در عامل‌های چندمرحله‌ای (Multi-turn) که وضعیت آن‌ها پویا است.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران