پرش به محتوای اصلی

موضوع

عامل‌محور

Autonomous agents, tool use, planning, multi-step workflows

۱٬۵۰۴ مقاله منتشر شده

کاهش خطای انتخاب ابزار در عامل‌های AI به ۲.۵ درصد با GIST-CMTF

کاهش خطای انتخاب ابزار در عامل‌های AI به ۲.۵ درصد با GIST-CMTF

چارچوب GIST-CMTF با معرفی لایه‌ی استنتاج وضعیت هدف، مانع از اجرای وظایف بر اساس درخواست‌های مبهم کاربران می‌شود. این سیستم با اعتبارسنجی هدف پیش از معرفی ابزارها، نرخ موفقیت در…

۱ دقیقه خواندن
OpenClaw-Skill: حل چالش برنامه‌ریزی بلندمدت عامل‌ها با جست‌وجوی جمعی در درخت

OpenClaw-Skill: حل چالش برنامه‌ریزی بلندمدت عامل‌ها با جست‌وجوی جمعی در درخت

پژوهشگران چارچوب OpenClaw-Skill را معرفی کردند که با استفاده از جست‌وجوی جمعی در درخت مهارت‌ها (CSTS)، کتابخانه‌ای از مهارت‌های بازیافت‌پذیر برای عامل‌های هوش مصنوعی می‌سازد. این…

۲ دقیقه خواندن
چگونه تبدیل دستورالعمل‌های متنی به وزن‌های رفتاری، هزینه‌ی استنتاج را می‌کاهد؟

چگونه تبدیل دستورالعمل‌های متنی به وزن‌های رفتاری، هزینه‌ی استنتاج را می‌کاهد؟

پژوهشگران چارچوب **Skill-to-LoRA** (S2L) را معرفی کرده‌اند که دستورالعمل‌های متنی حجیم در پرامپت‌ها را با آداپتورهای سبک **LoRA** جایگزین می‌کند. این رویکرد باعث کاهش ۶.۶ درصدی…

۲ دقیقه خواندن
چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینه‌سازی سیاست‌های مدل‌های زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان می‌دهد که بسیاری از…

۲ دقیقه خواندن
AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

پژوهشگران با معرفی بنچمارک **AgentFairBench** نشان دادند که روش‌های رایج، سوگیری‌های دموگرافیک در عامل‌های AI را تا ۲.۴ برابر بیشتر از واقعیت تخمین می‌زنند. این مطالعه تأیید…

۲ دقیقه خواندن
چرا دقت AUROC دیگر معیار موفقیت در هوش مصنوعی پزشکی نیست؟

چرا دقت AUROC دیگر معیار موفقیت در هوش مصنوعی پزشکی نیست؟

پژوهشگران پیشنهاد کرده‌اند که هوش مصنوعی پزشکی از مدل‌های تشخیص ایستا به «مدل‌های جهانی» تغییر مسیر دهد. هدف این رویکرد، تبدیل سیستم‌ها از امتیازدهی ریسک به شبیه‌سازی پویا از مسیر…

۱ دقیقه خواندن
جایگزینی حافظه متنی با کد پایتون؛ رسیدن به دقت ۹۹ درصدی در حافظه عامل‌های AI

جایگزینی حافظه متنی با کد پایتون؛ رسیدن به دقت ۹۹ درصدی در حافظه عامل‌های AI

پژوهشگران چارچوب User as Code (UaC) را معرفی کردند که حافظه متنی هوش مصنوعی را با اشیاء و توابع قابل‌اجرای پایتون جایگزین می‌کند. این تغییر پارادایم، دقت پاسخ‌دهی عامل‌ها به…

۲ دقیقه خواندن
مدل خودمختاری کنترل‌شده: چارچوب جدید کریستوفر کُک برای کاهش ریسک عامل‌های AI

مدل خودمختاری کنترل‌شده: چارچوب جدید کریستوفر کُک برای کاهش ریسک عامل‌های AI

تحلیل جدیدی نشان می‌دهد شرکت‌های متوسط باید به جای تعقیب خودمختاری کامل، به سراغ «خودمختاری جزئی کنترل‌شده» بروند. این رویکرد با تمرکز بر یکپارچه‌سازی انسان‌محور، بار اداری را…

۱ دقیقه خواندن
پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

بنچمارک جدید CoffeeBench نشان می‌دهد که برخی مدل‌های زبانی با وجود توانایی برنامه‌ریزی دقیق، در محیط‌های اقتصادی بلندمدت دچار «بی‌عملی» می‌شوند. Claude Haiku 4.5 در این آزمون…

۱ دقیقه خواندن
گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

پژوهشگران با معرفی چارچوب Tensor-Coord، برنامه‌ریزی در سیستم‌های چندعاملی را از مذاکرات شکننده بر پایه پرامپت به همراستاسازی ریاضی منتقل کردند. این روش با استفاده از تجزیه جبری…

۱ دقیقه خواندن
چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

پژوهشگران چارچوبی به نام EC-Script توسعه داده‌اند که به مدل‌های زبانی اجازه می‌دهد روایت‌های داستانی را با مسیرهای احساسی دقیق، مخصوص هنردرمانی، تولید کنند. این سیستم از یک ساختار…

۱ دقیقه خواندن
کاهش خطای قیمت‌گذاری ریسک عامل‌های AI از ۱۷ هزار دلار به ۵۶۹ دلار

کاهش خطای قیمت‌گذاری ریسک عامل‌های AI از ۱۷ هزار دلار به ۵۶۹ دلار

پژوهشگران چارچوب جدیدی برای quantifying و بیمه کردن ریسک‌های مالی عامل‌های خودمختار معرفی کرده‌اند. این سیستم با جایگزینی قضاوت مدل‌های زبانی با برچسب‌های اقتصادی قطعی، نرخ خطای…

۱ دقیقه خواندن