تحلیل و بررسی تخصصی

کاهش خطای قیمت‌گذاری ریسک عامل‌های AI از ۱۷ هزار دلار به ۵۶۹ دلار

پژوهشگران چارچوب جدیدی برای quantifying و بیمه کردن ریسک‌های مالی عامل‌های خودمختار معرفی کرده‌اند. این سیستم با جایگزینی قضاوت مدل‌های زبانی با برچسب‌های اقتصادی قطعی، نرخ خطای…

تحلیل و بررسی تخصصی۲ هفته پیش

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

تحقیقات جدید نشان می‌دهد عامل‌های هوش مصنوعی اغلب ابزار درست را شناسایی می‌کنند اما در مرحله نهایی تصمیم‌گیری دچار خطا می‌شوند. این یافته، اثربخشی روش‌های رایج مهندسی پرامپت برای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا برای بازیابی خطوط تولید دیگر نیازی به بازآموزی مدل‌های RL نیست؟

یک چارچوب جدید به سیاست‌های RMAPPO اجازه می‌دهد در لحظه‌ی اجرا از قوانین خارجی یا راهنمایی‌های مدل‌های زبانی استفاده کنند تا سرعت بازیابی خطوط تولید پس از نقص فنی افزایش یابد. این…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

جایگاه در لیست: متغیری که توصیه‌های مدل‌های زبانی را ۱۲ دلار جابه‌جا می‌کند

یک ممیزی روی ۱۲ مدل هوش مصنوعی نشان می‌دهد که جایگاه یک هتل در لیست داده‌ها، به‌طور مستقل بر توصیه‌ی مدل اثر می‌گذارد. این سوگیری ساختاری باعث می‌شود ارزش ادراکی هر اتاق شبانه…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

کدنویسی به جای احتمالات: رویکرد MHL برای حذف جعبه سیاه در تشخیص‌های پزشکی

متد MHL وزن‌های مبهم شبکه‌های عصبی را با قوانین قطعی پایتونی جایگزین می‌کند. این چارچوب دقت بالای استانداردهای فعلی را در داده‌های پزشکی حفظ کرده و در عین حال قابلیت بازبینی کامل…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

چارچوب AdaSTORM با استفاده از تقسیم‌بندی تطبیقی و معماری چند-عاملی، محدودیت مقیاس‌پذیری در استدلال گراف‌های پویا را شکست. این سیستم بدون نیاز به ابزارهای خارجی، به دقت بیش از ۹۰…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

پلتفرم StateGen با معرفی یک مدیریت وضعیت متمرکز و ساختار چهار-نقش، توهمات مربوط به نتایج ابزارها در عامل‌های هوش مصنوعی را حذف کرده است. این معماری با تولید داده‌های مصنوعی دقیق،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا استدلال «ساکت» در مدل‌های زبانی دقیق‌تر از زنجیره تفکر متنی است؟

رویکرد Latent Thought Flow با جایگزینی توکن‌های متنی در زنجیره تفکر با مسیرهای پیوسته در فضای پنهان، دقت پاسخ‌دهی را ۹.۵٪ افزایش داده است. این متدولوژی هزینه محاسباتی استنتاج را…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

پژوهشگران چارچوب OQ-TSAE را معرفی کرده‌اند تا نمایش‌های هوش مصنوعی را راستی‌آزمایی کنند تا تنها تمایزات موردپشتی سخت‌افزاری را حفظ کنند. این سیستم با استفاده از «خارج‌قسمت‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

۱ دقیقه خواندن