پرش به محتوای اصلی

موضوع

عامل‌محور

Autonomous agents, tool use, planning, multi-step workflows

۱٬۵۰۲ مقاله منتشر شده

AI

بنچمارک CVE-Bench: نرخ موفقیت GPT-5.5 در رفع آسیب‌پذیری‌های امنیتی ۵۰٪ است

مدل‌های پیشرو همچنان در رفع نیمی از آسیب‌پذیری‌های امنیتی واقعی ناتوان‌اند. بنچمارک CVE-Bench نشان می‌دهد که «استدلال امنیتی» در این مدل‌ها بیشتر شبیه به تطبیق الگو است تا تحلیل…

۲ دقیقه خواندن
AI

چگونه «هارنس» یا محیط ارزیابی، توانایی واقعی مدل‌های پیشرو را بازتعریف می‌کند؟

شرکت OpenAI در یک دستورالعمل فنی استدلال می‌کند که توانایی مدل‌های پیشرو یک مقدار ثابت نیست، بلکه متغیری وابسته به «هارنس» (Harness) یا همان محیط، ابزارها و بودجه محاسباتی است.…

۳ دقیقه خواندن
AI

درون استراتژی Mistral برای مالکیت کامل زنجیره تأمین هوش مصنوعی اروپا

شرکت Mistral AI از یک آزمایشگاه مدل‌سازی به ارائه‌دهنده کامل زیرساخت، پلتفرم و مشاوره تبدیل شده است. این شرکت با راه‌اندازی مرکز داده اختصاصی در پاریس، بر استقرار محلی و مدل‌های…

۲ دقیقه خواندن
AI

CogCAPTCHA30 و شکاف فرآیندی: چرا مدل‌های پیشرو در استدلال کمتر شبیه انسان هستند؟

پژوهشی جدید با معرفی «تست تورینگ فرآیندی» نشان می‌دهد که مدل‌های پیشرو با وجود ارائه پاسخ‌های صحیح، مسیری کاملاً متفاوت از انسان برای رسیدن به جواب طی می‌کنند. این مطالعه فاش…

۳ دقیقه خواندن
AI

چرا وزن‌های مدل، گلوگاه واقعی عامل‌های هوش مصنوعی نیستند؟

پژوهشگران استنفورد و متا استدلال می‌کنند که عامل‌های هوش مصنوعی تنها یک مدل زبانی نیستند، بلکه ترکیبی از مدل و یک «هارنس» نرم‌افزاری‌اند. این لایه‌ی کد اجرایی است که تداوم وضعیت،…

۳ دقیقه خواندن
AI
آموزش کاربردی

درون AppFunctions: استراتژی گوگل برای حذف رابط کاربری در عصر عامل‌های هوش مصنوعی

گوگل با معرفی کتابخانه AppFunctions در اندروید ۱۶، به اپلیکیشن‌ها اجازه می‌دهد منطق داخلی خود را مستقیماً به عنوان ابزاری برای عامل‌های هوش مصنوعی ارائه دهند. این تغییر، رابط‌های…

۲ دقیقه خواندن
AI
سرگرمی و خلاقیت

چرا Firefly Assistant به جای تولید تصویر، ابزارهای فتوشاپ را مدیریت می‌کند؟

دستیار جدید ادوبی به عنوان یک واسط گفتگو عمل می‌کند که ابزارهای فتوشاپ و ایلاستریتور را کنترل می‌کند. برخلاف مدل‌های رایج، این ابزار مراحل کار خود را توضیح می‌دهد، هرچند کیفیت…

۲ دقیقه خواندن