پرش به محتوای اصلی

موضوع

عامل‌محور

Autonomous agents, tool use, planning, multi-step workflows

۱٬۵۲۷ مقاله منتشر شده

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

یک مطالعه جدید نشان می‌دهد که بازخوردهای هدفمند کیفیت گزارش‌های عامل‌های پژوهش عمیق را افزایش می‌دهد، اما این پیشرفت در دوره‌های تکرار متوالی پایداری ندارد. این عامل‌ها هنگام رفع…

۱ دقیقه خواندن
سازوکار PRIME: شناسایی نشانه‌های پنهان تقلب در پاداش پیش از وقوع شکست

سازوکار PRIME: شناسایی نشانه‌های پنهان تقلب در پاداش پیش از وقوع شکست

پژوهشگران پیش‌زمینه جدیدی به نام PRIME را شناسایی کرده‌اند که امکان پیش‌بینی تقلب در پاداش (Reward Hacking) را پیش از بروز شکست عملی فراهم می‌کند. این یافته، رویکرد همراستاسازی…

۱ دقیقه خواندن
چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

پژوهشگران چارچوب جدیدی برای «طراحی بازگشتی» در هوش مصنوعی معرفی کردند که طی آن مدل DGM توانست نمرات کدنویسی خود را در ۸۰ تکرار، از ۲۰٪ به ۵۰٪ برساند. این مطالعه با ارائه پروتکل…

۱ دقیقه خواندن
۸۶٪ دقت در تأیید پروتکل‌های درمانی سکته مغزی با ارکستراسیون مدل‌های زبانی

۸۶٪ دقت در تأیید پروتکل‌های درمانی سکته مغزی با ارکستراسیون مدل‌های زبانی

یک چارچوب جدید هوش مصنوعی می‌تواند رعایت دستورالعمل‌های پزشکی را تنها با تحلیل متون نامساختار تأیید کند. مطالعه‌ای در بیمارستان Alessandria موفق شد بدون نیاز به دستورالعمل‌های…

۱ دقیقه خواندن
چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

یک بررسی جامع در arXiv نشان می‌دهد که مفهوم «خودتوضیحی» (SX) در سیستم‌های هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیاده‌سازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

۱ دقیقه خواندن
چگونه PRISM دستورات پنهان عامل‌های هوش مصنوعی را از دل فعال‌سازها بیرون می‌کشد؟

چگونه PRISM دستورات پنهان عامل‌های هوش مصنوعی را از دل فعال‌سازها بیرون می‌کشد؟

محققان ابزاری به نام PRISM را معرفی کرده‌اند که می‌تواند وضعیت‌های پنهان مدل‌های زبانی را به لیست‌های خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریق‌های…

۱ دقیقه خواندن
گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

پژوهش‌های جدید نشان می‌دهد عامل‌های هوش مصنوعی در ارزش‌گذاری داروها، بیش از آنکه با محدودیت‌های استدلالی دست‌وپنجر باشند، با کمبود داده‌های باکیفیت مواجه‌اند. دسترسی به مجموعه…

۲ دقیقه خواندن
MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدل‌های زبانی با گیت‌های تأیید قطعی، توانست تمام خطاهای تزریق‌شده در متون بالینی را شناسایی کند. در حالی که مدل‌های زبانی معمولی…

۲ دقیقه خواندن
AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن
رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابه‌جا کرد. این سیستم به جای پردازش جامع داده‌های صفحه، از مکانیزم…

۲ دقیقه خواندن
چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

بنچمارک جدید WeaveBench نشان می‌دهد که مدل‌های پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیده‌اند. این نتایج فاش می‌کند که عامل‌ها در مدیریت گردش‌کارهای…

۱ دقیقه خواندن