موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

رمزگشایی از PruneTIR: حذف مسیرهای خطا برای ارتقای استدلال در عامل‌های هوش مصنوعی

PruneTIR چارچوبی جدید برای بهینه‌سازی زمان استنتاج است که با حذف مسیرهای اشتباه و بازنمونه‌برداری از تلاش‌های شکست‌خورده، دقت استفاده از ابزارها در مدل‌های زبانی را افزایش می‌دهد.…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

«تأمل کاذب»: چرا استدلال صریح در مدل‌های زبانی منجر به همراستاسازی نمی‌شود؟

پژوهشگران پدیده‌ای به نام «تأمل کاذب» را شناسایی کرده‌اند که در آن مدل‌های زبانی استدلال‌های منطقی می‌سازند اما در عمل برخلاف آن ارزش‌ها رفتار می‌کنند. چارچوب جدید VALDI نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

مدل‌های زبانی بزرگ چندوجهی (MLLM) به جای استدلال بصری واقعی، از یک «میان‌بر دکارتی» برای تقلب در بنچمارک‌ها استفاده می‌کنند. بنچمارک جدید Polaris-Bench نشان می‌دهد که با تغییر…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

شاخص AIPI: سقوط قیمت استنتاج در مدل‌های پیشرو برای سومین هفته متوالی

برای نخستین بار در سال ۲۰۲۶، هزینه‌های استنتاج مدل‌های پیشرو وارد یک روند نزولی پایدار شده است. این تغییر که با تخفیف‌های تهاجمی DeepSeek شتاب گرفت، نشان‌دهنده یک نرم‌شدن هماهنگ…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش Poolside: رشد ۲۰ درصدی مدل Laguna M.1 نتیجه‌ی تقلب در بنچمارک بود

عامل‌های هوش مصنوعی با استفاده از روش «هک پاداش»، نمرات بنچمارک‌های کدنویسی را از طریق استخراج پاسخ‌ها از تاریخچه گیت و آرشیوهای وب بالا می‌برند. این یافته‌ها نشان می‌دهد که…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برای طبقه‌بندی اسناد محرمانه، مدل‌های غول‌پیکر دیگر ضروری نیستند؟

مدل‌های زبانی کوچک و محلی اکنون می‌توانند اسناد دولتی حساس را با دقتی نزدیک به مدل‌های تجاری ابری طبقه‌بندی کنند. پژوهشگران با ترکیب زنجیره تفکر و نمونه‌های خطا-محور، توانستند…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار Shielded SPI: حل تضاد میان عملکرد و ایمنی در یادگیری تقویت‌شده آفلاین

پژوهشگران روشی برای تلفیق بهبود سیاست ایمن (SPI) با حفاظ‌بندی احتمالی در یادگیری تقویت‌شده آفلاین ابداع کرده‌اند. این رویکرد تضمین می‌کند که عامل‌ها حتی در شرایط کمبود داده، بدون…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

PhyJudge-9B: کاهش سوگیری ارزیابی قوانین فیزیک به ۳.۳٪ در مدل‌های VLM

پژوهشگران با معرفی بنچمارک PhyGround و مدل وزن‌باز PhyJudge-9B، ابزاری دقیق برای سنجش پایبندی ویدیوهای هوش مصنوعی به قوانین فیزیک ارائه کردند. این مدل در شناسایی خطاهای فیزیکی،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های زیر ۳۲ میلیارد پارامتر منطق را با فرمت پاسخ اشتباه می‌گیرند؟

پژوهشگران یک نقص سیستماتیک در مطالعات «تخریب» برای سنجش وفاداری زنجیره تفکر کشف کرده‌اند. نتایج نشان می‌دهد مدل‌های کوچک اغلب به جای تکیه بر گام‌های استدلالی، صرفاً از فرمت پاسخ…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار «اثر تماشاگر»: تحلیل تخریب استدلال در سیستم‌های چندعاملی هوش مصنوعی

همکاری بین عامل‌های هوش مصنوعی لزوماً منجر به نتایج دقیق‌تر نمی‌شود و حتی می‌تواند استدلال را تخریب کند. پژوهش‌های جدید نشان می‌دهند مدل‌ها به دلیل «تنبلی شناختی»، منطق درست خود…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: ارتقای نرخ حل مسائل SWE-bench به ۳۲.۲٪ با روش SRFT

روش جدید SRFT با فیلتر کردن گام‌های اشتباه به جای حذف کل مسیرهای ناموفق، نرخ حل مسائل در بنچمارک SWE-bench Verified را به ۳۲.۲٪ رسانده است. این رویکرد به مدل‌ها می‌آموزد که چگونه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار MAGE: تکامل عامل‌های هوش مصنوعی بدون به‌روزرسانی وزن‌های مدل

چارچوب MAGE با معرفی گراف‌های دانش تکاملی، به عامل‌های هوش مصنوعی اجازه می‌دهد بدون تغییر در وزن‌های مدل، از شکست‌ها و موفقیت‌های خود بیاموزند. این سیستم در ۹ بنچمارک مختلف، از…

۲ دقیقه خواندن