
کاهش خطای قیمتگذاری ریسک عاملهای AI از ۱۷ هزار دلار به ۵۶۹ دلار
پژوهشگران چارچوب جدیدی برای quantifying و بیمه کردن ریسکهای مالی عاملهای خودمختار معرفی کردهاند. این سیستم با جایگزینی قضاوت مدلهای زبانی با برچسبهای اقتصادی قطعی، نرخ خطای…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۳ مقاله منتشر شده

پژوهشگران چارچوب جدیدی برای quantifying و بیمه کردن ریسکهای مالی عاملهای خودمختار معرفی کردهاند. این سیستم با جایگزینی قضاوت مدلهای زبانی با برچسبهای اقتصادی قطعی، نرخ خطای…

تحقیقات جدید نشان میدهد عاملهای هوش مصنوعی اغلب ابزار درست را شناسایی میکنند اما در مرحله نهایی تصمیمگیری دچار خطا میشوند. این یافته، اثربخشی روشهای رایج مهندسی پرامپت برای…

یک چارچوب جدید به سیاستهای RMAPPO اجازه میدهد در لحظهی اجرا از قوانین خارجی یا راهنماییهای مدلهای زبانی استفاده کنند تا سرعت بازیابی خطوط تولید پس از نقص فنی افزایش یابد. این…

یک ممیزی روی ۱۲ مدل هوش مصنوعی نشان میدهد که جایگاه یک هتل در لیست دادهها، بهطور مستقل بر توصیهی مدل اثر میگذارد. این سوگیری ساختاری باعث میشود ارزش ادراکی هر اتاق شبانه…

متد MHL وزنهای مبهم شبکههای عصبی را با قوانین قطعی پایتونی جایگزین میکند. این چارچوب دقت بالای استانداردهای فعلی را در دادههای پزشکی حفظ کرده و در عین حال قابلیت بازبینی کامل…

چارچوب AdaSTORM با استفاده از تقسیمبندی تطبیقی و معماری چند-عاملی، محدودیت مقیاسپذیری در استدلال گرافهای پویا را شکست. این سیستم بدون نیاز به ابزارهای خارجی، به دقت بیش از ۹۰…

یک چارچوب معماری جدید پیشنهاد میدهد که «خرد» را از «هوش» جدا کند تا از بهینهسازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل ششمؤلفهای، پیش از…

پلتفرم StateGen با معرفی یک مدیریت وضعیت متمرکز و ساختار چهار-نقش، توهمات مربوط به نتایج ابزارها در عاملهای هوش مصنوعی را حذف کرده است. این معماری با تولید دادههای مصنوعی دقیق،…

رویکرد Latent Thought Flow با جایگزینی توکنهای متنی در زنجیره تفکر با مسیرهای پیوسته در فضای پنهان، دقت پاسخدهی را ۹.۵٪ افزایش داده است. این متدولوژی هزینه محاسباتی استنتاج را…

پژوهشگران با معرفی PAL-Bench نشان دادند که مدلهای هوش مصنوعی علیرغم توانایی در خلاصهسازی، در پیوند دادن هویتهای تکرارشونده در دادههای بلندمدت ناتواناند. این شکاف، تفاوت…

پژوهشگران چارچوب OQ-TSAE را معرفی کردهاند تا نمایشهای هوش مصنوعی را راستیآزمایی کنند تا تنها تمایزات موردپشتی سختافزاری را حفظ کنند. این سیستم با استفاده از «خارجقسمتهای…

یک تحلیل تشخیصی جدید نشان میدهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمینکننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…