موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۳ مقاله منتشر شده

پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

تیم RaguTeam با به‌کارگیری یک مجموعه مدل‌های متنوع، مقام اول مسابقات SemEval-2026 را به دست آورد. این سیستم با استفاده از GPT-4o-mini به عنوان داور، توانست در تولید پاسخ‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چارچوب جدید JASTIN به مدل‌های زبانی اجازه می‌دهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزش‌های خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

معرفی بنچ‌مارک DiffCap-Bench نشان داد که مدل‌های تجاری در درک تفاوت‌های بصری، فرسنگ‌ها از مدل‌های متن‌باز جلوترند. این یافته ثابت می‌کند که صرفاً بزرگ‌تر کردن مدل‌ها، مشکل استدلال…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه یک مدل ۱۴ میلیارد پارامتری، GPT-5 را در تست نفوذ شکست داد؟

چارچوب جدید Pen-Strategist با ترکیب مدل استدلالی و طبقه‌بندی‌کننده CNN، توانست در اجرای استراتژی‌های تست نفوذ، عملکرد GPT-5 و Claude-4.6 را به شدت پشت سر بگذارد. این دستاورد نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

پژوهشگران چارچوب CAR را معرفی کردند؛ سیستمی که به جای شباهت معنایی، بر اساس توانایی سند در افزایش «اطمینان» مدل، رتبه‌بندی را تغییر می‌دهد. این رویکرد نویز را در خط لوله‌های تولید…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

پژوهشگران پنجره‌ای حیاتی در آموزش مدل‌های ترنسفورمر کشف کرده‌اند که تعیین می‌کند مدل واقعاً استدلال کند یا صرفاً داده‌ها را حفظ کند. نکته‌ی غافلگیرکننده این است که زمان‌بندی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا پنجره‌های بافت بزرگ‌تر راه نجات عامل‌های هوش مصنوعی نیستند؟

پژوهشگران با معرفی LongSeeker، پارادایم جدیدی برای مدیریت حافظه در عامل‌های جستجو ایجاد کرده‌اند. این مدل با حذف داده‌های زائد، دقت جستجوهای پیچیده را به ۶۲.۵٪ رسانده و رقبای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arxiv: مدل‌های دنیای قابل‌اجرا ۷ بازی پیچیده ARC-AGI-3 را حل کردند

یک سیستم جدید عامل‌محور توانسته است با ساخت و بازنویسی مدل‌های دنیای پایتونی، پازل‌های پیچیده ARC-AGI-3 را حل کند. این دستاورد، معیار جدیدی برای استدلال عمومی در هوش مصنوعی تعریف…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

راز کاهش ۱۰ برابری هزینه‌های عامل‌های هوش مصنوعی

پژوهشگران با معرفی Uno-Orchestra، سیستمی برای بهینه‌سازی همزمان تجزیه تکالیف و انتخاب مدل طراحی کرده‌اند. این رویکرد دقت را ۱۶ درصد افزایش و هزینه‌های استنتاج را تا ۱۰ برابر کاهش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

پژوهشگران راهی برای اجرای الگوریتم‌های استاندارد Bandit در مسائل T-MDP یافته‌اند که مانع رشد نمایی حافظه می‌شود. این متد با استفاده از کران‌های اطمینان مشترک، محاسبات را به سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه NRI استدلال نمادین را به یک مدل بنیادی تبدیل کرد؟

پژوهشگران مدل NRI را معرفی کردند؛ سیستمی که می‌تواند بدون نیاز به بازآموزی، قوانین منطقی را در حالت صفر-شات استخراج کند. این مدل با تکیه بر ویژگی‌های آماری، استدلال نمادین را از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

Strat-Reasoner؛ پایان شکست‌های مدل‌های زبانی در بازی‌های استراتژیک

پژوهشگران چارچوب جدیدی به نام Strat-Reasoner معرفی کرده‌اند که به مدل‌های زبانی اجازه می‌دهد فرآیند استدلال رقبای خود را مدل‌سازی کنند. این رویکرد بازگشتی منجر به افزایش ۲۲.۱…

۲ دقیقه خواندن