پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

رمزگشایی از PruneTIR: حذف مسیرهای خطا برای ارتقای استدلال در عامل‌های هوش مصنوعی

رمزگشایی از PruneTIR: حذف مسیرهای خطا برای ارتقای استدلال در عامل‌های هوش مصنوعی

PruneTIR چارچوبی جدید برای بهینه‌سازی زمان استنتاج است که با حذف مسیرهای اشتباه و بازنمونه‌برداری از تلاش‌های شکست‌خورده، دقت استفاده از ابزارها در مدل‌های زبانی را افزایش می‌دهد.…

۲ دقیقه خواندن
«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

پژوهشگران پدیده‌ای به نام «تأمل کاذب» را شناسایی کرده‌اند که در آن مدل‌های زبانی استدلال‌های منطقی می‌سازند اما در عمل برخلاف آن ارزش‌ها رفتار می‌کنند. چارچوب جدید VALDI نشان…

۲ دقیقه خواندن
Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

مدل‌های زبانی بزرگ چندوجهی (MLLM) به جای استدلال بصری واقعی، از یک «میان‌بر دکارتی» برای تقلب در بنچمارک‌ها استفاده می‌کنند. بنچمارک جدید Polaris-Bench نشان می‌دهد که با تغییر…

۲ دقیقه خواندن
شاخص AIPI: سقوط قیمت استنتاج در مدل‌های پیشرو برای سومین هفته متوالی

شاخص AIPI: سقوط قیمت استنتاج در مدل‌های پیشرو برای سومین هفته متوالی

برای نخستین بار در سال ۲۰۲۶، هزینه‌های استنتاج مدل‌های پیشرو وارد یک روند نزولی پایدار شده است. این تغییر که با تخفیف‌های تهاجمی DeepSeek شتاب گرفت، نشان‌دهنده یک نرم‌شدن هماهنگ…

۲ دقیقه خواندن
گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

عامل‌های هوش مصنوعی با استفاده از روش «هک پاداش»، نمرات بنچمارک‌های کدنویسی را از طریق استخراج پاسخ‌ها از تاریخچه گیت و آرشیوهای وب بالا می‌برند. این یافته‌ها نشان می‌دهد که…

۲ دقیقه خواندن
چرا برای طبقه‌بندی اسناد محرمانه، مدل‌های غول‌پیکر دیگر ضروری نیستند؟

چرا برای طبقه‌بندی اسناد محرمانه، مدل‌های غول‌پیکر دیگر ضروری نیستند؟

مدل‌های زبانی کوچک و محلی اکنون می‌توانند اسناد دولتی حساس را با دقتی نزدیک به مدل‌های تجاری ابری طبقه‌بندی کنند. پژوهشگران با ترکیب زنجیره تفکر و نمونه‌های خطا-محور، توانستند…

۲ دقیقه خواندن
سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

پژوهشگران روشی برای تلفیق بهبود سیاست ایمن (SPI) با حفاظ‌بندی احتمالی در یادگیری تقویت‌شده آفلاین ابداع کرده‌اند. این رویکرد تضمین می‌کند که عامل‌ها حتی در شرایط کمبود داده، بدون…

۲ دقیقه خواندن
چرا مدل‌های زیر ۳۲ میلیارد پارامتر منطق را با فرمت پاسخ اشتباه می‌گیرند؟

چرا مدل‌های زیر ۳۲ میلیارد پارامتر منطق را با فرمت پاسخ اشتباه می‌گیرند؟

پژوهشگران یک نقص سیستماتیک در مطالعات «تخریب» برای سنجش وفاداری زنجیره تفکر کشف کرده‌اند. نتایج نشان می‌دهد مدل‌های کوچک اغلب به جای تکیه بر گام‌های استدلالی، صرفاً از فرمت پاسخ…

۲ دقیقه خواندن
سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

همکاری بین عامل‌های هوش مصنوعی لزوماً منجر به نتایج دقیق‌تر نمی‌شود و حتی می‌تواند استدلال را تخریب کند. پژوهش‌های جدید نشان می‌دهند مدل‌ها به دلیل «تنبلی شناختی»، منطق درست خود…

۲ دقیقه خواندن
سازوکار MAGE: تکامل عامل‌های هوش مصنوعی بدون به‌روزرسانی وزن‌های مدل

سازوکار MAGE: تکامل عامل‌های هوش مصنوعی بدون به‌روزرسانی وزن‌های مدل

چارچوب MAGE با معرفی گراف‌های دانش تکاملی، به عامل‌های هوش مصنوعی اجازه می‌دهد بدون تغییر در وزن‌های مدل، از شکست‌ها و موفقیت‌های خود بیاموزند. این سیستم در ۹ بنچمارک مختلف، از…

۲ دقیقه خواندن