تصور کنید مشاور مالی شما در جابهجایی داراییها استاد باشد، اما نتواند دلیل این تصمیم را توضیح دهد؛ این دقیقاً همان شکافی است که امنیت سرمایه شما را تهدید میکند. باید بدانید که اعتماد کورکورانه به «کپیلوتها» (Copilots) میتواند هزینهی سنگینی داشته باشد.
به نقل از گزارش arxiv.org، بنچمارک LATTICE که در ۳۰ آوریل ۲۰۲۶ منتشر شد، نشان میدهد که دستیارهای فعلی در توانایی پشتیبانی واقعی از تصمیمگیری انسان، بهشدت با یکدیگر متفاوت هستند. بر اساس مستندات این پژوهش، تمرکز ارزیابی از «نتیجهی نهایی» به «سودمندی پشتیبانی از تصمیم» تغییر یافته است؛ یعنی دیگر مهم نیست که تراکنش با موفقیت انجام شده یا خیر، بلکه سؤال این است که عامل تا چه حد به کاربر کمک کرده تا تصمیم درستی بگیرد.
برای رسیدن به این تحلیل، چارچوب LATTICE از یک سیستم ارزیابی مقیاسپذیر استفاده میکند:
- ۶ بُعد ارزیابی برای سنجش ویژگیهای کلیدی پشتیبانی از تصمیم.
- ۱۶ نوع تسک مختلف که کل گردشکار یک کپیلوت کریپتو را پوشش میدهد.
- استفاده از مدل زبانی بزرگ (Large Language Model - LLM) به عنوان داور برای امتیازدهی خودکار بر اساس معیارهای مشخص، بدون نیاز به دادههای مرجع انسانی.
همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای عاملمحور (Agentic) اشاره کردیم، توازن بین استقلال مدل و نظارت انسانی همواره یک چالش بوده است. در این مطالعه، ۶ کپیلوت سطح تولیدی با ۱۲۰۰ پرسوجوی متنوع مورد آزمایش قرار گرفتند. نتایج تکاندهنده بود: اگرچه امتیازات کلی مدلها مشابه به نظر میرسید، اما در سطح هر تسک و هر بُعد، تفاوتهای فاحشی دیده شد.
این الگو یک تضاد حیاتی در طراحی عامل (Agent) را آشکار میکند: ابزاری که در اجرای فنی (Technical Execution) میدرخشد، لزوماً در هدایت استراتژیک (Strategic Guidance) موفق نیست. بنابراین، «بهترین» ابزار برای شما، کاملاً به اولویتهای شما بستگی دارد، نه به رتبهبندیهای کلی.
این تنها آغاز ماجراست؛ اثر موجگونهی این یافتهها بر آیندهی تراکنشهای خودکار و امنیت مالی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر از دستیارهای AI برای مدیریت پورتفوی استفاده میکنید، آنها را در تسکهای «توضیحی» به چالش بکشید، نه فقط تسکهای «اجرایی».
- به دنبال ابزارهایی باشید که شفافیت در زنجیره تفکر را ارائه میدهند، نه فقط نتایج نهایی.
- معیارهای ارزیابی LATTICE را برای سنجش ابزارهای جدید خود به کار بگیرید.




گفتگو