موضوع

عامل‌محور

Autonomous agents, tool use, planning, multi-step workflows

۱٬۵۲۷ مقاله منتشر شده

گزارش arXiv: بازگشت ۲۴ درصدی خطاهای اصلاح‌شده در خروجی‌های عامل‌های پژوهشی

یک مطالعه جدید نشان می‌دهد که بازخوردهای هدفمند کیفیت گزارش‌های عامل‌های پژوهش عمیق را افزایش می‌دهد، اما این پیشرفت در دوره‌های تکرار متوالی پایداری ندارد. این عامل‌ها هنگام رفع…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

SearchSwarm-30B: دستیابی به امتیاز ۷۳.۳ در BrowseComp-ZH با هوش تفویض‌محور

مدل با وزن‌های باز SearchSwarm-30B با درونی‌سازی «هوش تفویض» در وزن‌های خود، محدودیت پنجره متنی را در وظایف پژوهشی پیچیده برطرف کرده است. این مدل قادر است اهداف کلان را به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار PRIME: شناسایی نشانه‌های پنهان تقلب در پاداش پیش از وقوع شکست

پژوهشگران پیش‌زمینه جدیدی به نام PRIME را شناسایی کرده‌اند که امکان پیش‌بینی تقلب در پاداش (Reward Hacking) را پیش از بروز شکست عملی فراهم می‌کند. این یافته، رویکرد همراستاسازی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

پژوهشگران چارچوب جدیدی برای «طراحی بازگشتی» در هوش مصنوعی معرفی کردند که طی آن مدل DGM توانست نمرات کدنویسی خود را در ۸۰ تکرار، از ۲۰٪ به ۵۰٪ برساند. این مطالعه با ارائه پروتکل…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

۸۶٪ دقت در تأیید پروتکل‌های درمانی سکته مغزی با ارکستراسیون مدل‌های زبانی

یک چارچوب جدید هوش مصنوعی می‌تواند رعایت دستورالعمل‌های پزشکی را تنها با تحلیل متون نامساختار تأیید کند. مطالعه‌ای در بیمارستان Alessandria موفق شد بدون نیاز به دستورالعمل‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

یک بررسی جامع در arXiv نشان می‌دهد که مفهوم «خودتوضیحی» (SX) در سیستم‌های هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیاده‌سازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه PRISM دستورات پنهان عامل‌های هوش مصنوعی را از دل فعال‌سازها بیرون می‌کشد؟

محققان ابزاری به نام PRISM را معرفی کرده‌اند که می‌تواند وضعیت‌های پنهان مدل‌های زبانی را به لیست‌های خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریق‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

پژوهش‌های جدید نشان می‌دهد عامل‌های هوش مصنوعی در ارزش‌گذاری داروها، بیش از آنکه با محدودیت‌های استدلالی دست‌وپنجر باشند، با کمبود داده‌های باکیفیت مواجه‌اند. دسترسی به مجموعه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدل‌های زبانی با گیت‌های تأیید قطعی، توانست تمام خطاهای تزریق‌شده در متون بالینی را شناسایی کند. در حالی که مدل‌های زبانی معمولی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابه‌جا کرد. این سیستم به جای پردازش جامع داده‌های صفحه، از مکانیزم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

بنچمارک جدید WeaveBench نشان می‌دهد که مدل‌های پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیده‌اند. این نتایج فاش می‌کند که عامل‌ها در مدیریت گردش‌کارهای…

۱ دقیقه خواندن