باید باور کنید که توانمندی عاملهای هوش مصنوعی (AI Agents) دیگر محدود به وزنهای مدل نیست. تصور کنید سیستمی که به جای بازآموزی، مهارتهای خود را مانند یک نرمافزار بهروزرسانی و «پچ» میکند.
طبق اعلام پژوهشگران در ۱۲ می ۲۰۲۶، چارچوب SkillEvolver توانست به دقت ۵۶.۸ درصدی در بنچمارک SkillsBench دست یابد. این رقم طبق مستندات مقاله arXiv، بهطور قابلتوجهی از دقت ۴۳.۶ درصدی مهارتهای طراحیشده توسط انسان و خط پایه ۲۹.۹ درصدی (بدون مهارت) فراتر رفته است.
این تحول در حالی رخ میدهد که صنعت از پوستههای سادهی مدل زبانی بزرگ (LLM) به سمت عاملهای خودکار حرکت میکند. همانطور که در تحلیلهای قبلی ما دربارهی رقابت گوگل، متا و OpenAI برای تسلط بر عصر عاملمحور اشاره کردیم، گلوگاه اصلی همواره «مصنوعات ایستا» بود؛ یعنی مهارتهایی که یکبار نوشته میشدند و هرگز از تجربهی واقعی یاد نمیگرفتند.
SkillEvolver با تعریف یادگیری مهارت به عنوان یک «متا-مهارت»، این مشکل را حل میکند. این سیستم برخلاف روشهای سنتی، وزنهای مدل را تغییر نمیدهد، بلکه متن و کدِ مهارت را اصلاح میکند تا با هر عاملِ سازگار با پروتکل CLI بدون نیاز به بازآموزی کار کند.
ویژگیهای فنی کلیدی این سیستم عبارتند از:
- اصلاح پس از استقرار: متا-مهارت از شکستهای سایر عاملها در حین استفاده واقعی یاد میگیرد، نه فقط از ردپاهای اکتشافی.
- حسابرسی بیشبرازش (Overfit Audit): یک سیستم نظارتی با «عامل تازه» برای شناسایی نشت دادهها و حالتهای «دور زدن خاموش» که در آن مهارت معتبر به نظر میرسد اما در زمان اجرا نادیده گرفته میشود.
- تنوع دامنه: آزمایش روی ۸۳ وظیفه در بیش از ۱۵ حوزه؛ از جمله بهینهسازی هسته GPU در KernelBench که میانگین سرعت را از ۱.۱۶ به ۱.۵۱ رساند.
از نگاه فنی، این رویکرد فرض بنیادین دربارهی توانایی عاملها را تغییر میدهد. مسیر رسیدن به عاملهای همهمنظوره لزوماً از مدلهای بزرگتر یا همراستاسازی (Alignment) بیشتر با بازخورد انسانی نمیگذرد، بلکه از یک لایهی مجزا از دستورالعملهای تکاملیافته و تجربهمحور میگذرد.
گام بعدی شما
- بررسی نحوه ادغام این رویکرد یادگیری متا در چارچوبهای عاملهای متنباز.
- پایش این موضوع که آیا این مهارتهای تکاملیافته میتوانند بدون افت عملکرد، بین معماریهای مختلف مدل جابهجا شوند یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو