اگر هنوز برای کاهش خطاهای عاملهای هوش مصنوعی (AI Agents) روی تغییر چیدمان ابزارها در پرامپت متمرکز هستید، در واقع در حال جنگ با دشمن اشتباهی هستید. باید بدانید که مشکل اصلی نه در «فراموش کردن» ابزار توسط مدل، بلکه در نحوه تبدیل این شناخت به یک تصمیم نهایی است.
باور رایج در صنعت این بود که مدلها به دلیل پدیده «گمشدن در میانه» (Lost-in-the-Middle)، تعاریف ابزارها را در پرامپتهای طولانی گم میکنند. همانطور که در پوشش پیشین ما از AdaSTORM و مقیاسپذیری استدلال گرافها دیدیم، تصور بر این بود که گلوگاه اصلی، نحوه ارائه تعاریف ابزارها به مدل است. اما تحلیلهای جدید این فرضیه را به چالش میکشد.
به نقل از پژوهشی که در ۱۶ ژوئن ۲۰۲۶ توسط Shiyang Chen و همکارانش در arxiv.org منتشر شد، شکستها در مرحله «خوانش خروجی» (Readout) رخ میدهند، نه در مرحله ورودی. بر اساس مستندات این گزارش، تحلیل خطاها در بنچمارک BFCL (Berkeley Function Calling Leaderboard) نتایج تکاندهندهای را نشان میدهد:
- در ۸۰٪ موارد شکست، مکانیسم توجه مدل دقیقاً به ابزار درست اشاره میکرد (در حالی که شانس تصادفی تنها ۲۱٪ است).
- تنها در ۱۰٪ خطاها، ابزار درست مورد توجه قرار نگرفته بود.
- اصلاحات در سطح پرامپت (مانند تغییر ترتیب یا تکرار تعاریف)، تنها ۲۳٪ از خطاها را برطرف کرد.
- مداخلات در سطح خوانش خروجی، مانند بایاس لوگیتهای توجه (Attention-Logit Bias)، بین ۵۹٪ تا ۹۱٪ از خطاها را بازیابی کرد.
این نوع از شکستهای پنهانی که در لایههای درونی مدل رخ میدهند، یادآور تحلیلهای ما درباره مکانیسمهای شناسایی خطاهای خاموش در عاملهای هوش مصنوعی است که نشان میداد داوران LLM لزوماً قادر به تشخیص تمام نقصهای عملیاتی در مراحل میانی استدلال نیستند.
برای متخصصان فنی، این یافته مرکز ثقل بهینهسازی را از مهندسی پرامپت (Prompt Engineering) به «هدایت بازنمایی» (Representation Steering) منتقل میکند. این بدان معناست که افزایش پنجره متنی (Context Window) یا تغییر ترتیب ابزارها، بازدهی نزولی دارند؛ زیرا «بینش» داخلی مدل اغلب درست است، اما نگاشت خروجی آن شکسته شده است. پژوهشگران موفق شدند با استفاده از انتخابگرِ بدون آموزش (Training-free)، نمرات BFCL را در ۵ مدل مختلف ۱۱.۹ امتیاز بهبود بخشند.
گام بعدی شما
- بررسی امکان ادغام تکنیکهای Readout-Steering در موتورهای استنتاج (Inference) بیدرنگ.
- کاهش اتکا به استراتژیهای بازنویسی پرامپت برای بهبود دقت فراخوانی ابزارها.
- پایش اثرات این رویکرد در عاملهای چندمرحلهای (Multi-turn) که وضعیت آنها پویا است.
اما داستان سختافزاری این تحول حتی شگفتانگیزر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو