بسیاری از عاملهای AI با وجود دسترسی به ابزارهای درست، همچنان هدف اشتباهی را دنبال میکنند؛ این همان نقطهضعاف بحرانی در اجرای وظایف است که منجر به نتایج فاجعهبار در محیطهای عملیاتی میشود.
این مشکل زمانی رخ میدهد که عامل صرفاً ابزاری «مرتبط» را انتخاب میکند، بدون اینکه مطمئن باشد هدف نهایی کاربر را بهدرستی درک کرده است. GIST-CMTF با هدف حل این معضل، نرخ موفقیت در انجام وظایف را به ۹۷.۰٪ رسانده و پدیدهی «اجرای هدف اشتباه» را بهطور چشمگیر کاهش داده است.
همانطور که در تحلیل قبلی ما دربارهی بهینهسازی سیاستهای مدلهای زبانی (LLM Policy Optimization) اشاره کردیم، صنعت به سمت سیاستهای علّی ساختاریافتهتر حرکت میکند. با این حال، درخواستهای مبهم مانند «قرار ملاقات من را مدیریت کن»، اغلب عاملها را در مسیرهای علّی معتبر اما نادرستی قرار میدهد.
در ۱۶ ژوئن ۲۰۲۶، پژوهشگر Rahul Suresh Babu در تحلیل فنی ارائهشده در arxiv.org، جزئیات لایهی GIST-CMTF را تشریح کرد. طبق این مستندات، سیستم مذکور اهداف نمادین را پیشبینی کرده و میزان ابهام را تخمین میزند؛ در واقع، اگر متغیرهای هدف گمشده باشند، سیستم «درخواست شفافسازی» را به عنوان یک اقدام علّی در نظر میگیرد.
بر اساس بررسی ۱۲۰ وظیفهی استفاده از ابزار در هفت مدل مختلف و شش روش فیلترینگ، نتایج بنچمارکها تفاوتهای شدیدی را نشان داد:
- نرخ موفقیت وظایف: ۹۷.۰٪ با استفاده از GIST-CMTF در مقابل ۸۰.۱٪ برای روش Top-goal و ۸۲.۹٪ برای Semantic-goal.
- اجرای هدف اشتباه: کاهش از ۱۹.۴٪ به ۲.۵٪.
- بهرهوری توکن: مصرف بهطور قابل توجهی کمتر از روشهای معرفی تمامی ابزارها (all-tools exposure).
این رویکرد، فرض بنیادین در استفاده از ابزارها توسط عاملهای AI را تغییر میدهد. توسعهدهندگان دیگر نمیتوانند صرفاً به «مرتبط بودن ابزار» تکیه کنند، بلکه باید اعتبارسنجی وضعیت هدف را پیادهسازی کنند. GIST-CMTF ثابت میکند که محدود کردن گزینههای یک عامل — زمانی که توسط یک هدف تأییدشده هدایت شود — در واقع دقت را افزایش میدهد.
گام بعدی شما
- بررسی نحوه ادغام واژگان وضعیت هدف (Goal-state vocabularies) در ارکستراتورهای تجاری عاملها برای مدیریت جریانهای کاری پیچیده سازمانی.
- مطالعه نقشههای انتقال وضعیت و معیارهای ارزیابی در مقاله اصلی arXiv برای پیادهسازی لایههای اعتبارسنجی.
اما تأثیر این لایه بر کاهش هزینههای توکن در مقیاس سازمانی حتی چشمگیرتر است — در گزارش بعدی ما دربارهی بهینهسازی استنتاج (Inference) این موضوع را بررسی میکنیم.




گفتگو