
پیروزی خیرهکننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند
تیم RaguTeam با بهکارگیری یک مجموعه مدلهای متنوع، مقام اول مسابقات SemEval-2026 را به دست آورد. این سیستم با استفاده از GPT-4o-mini به عنوان داور، توانست در تولید پاسخهای…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۰۳ مقاله منتشر شده

تیم RaguTeam با بهکارگیری یک مجموعه مدلهای متنوع، مقام اول مسابقات SemEval-2026 را به دست آورد. این سیستم با استفاده از GPT-4o-mini به عنوان داور، توانست در تولید پاسخهای…

چارچوب جدید JASTIN به مدلهای زبانی اجازه میدهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزشهای خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

معرفی بنچمارک DiffCap-Bench نشان داد که مدلهای تجاری در درک تفاوتهای بصری، فرسنگها از مدلهای متنباز جلوترند. این یافته ثابت میکند که صرفاً بزرگتر کردن مدلها، مشکل استدلال…

چارچوب جدید Pen-Strategist با ترکیب مدل استدلالی و طبقهبندیکننده CNN، توانست در اجرای استراتژیهای تست نفوذ، عملکرد GPT-5 و Claude-4.6 را به شدت پشت سر بگذارد. این دستاورد نشان…

پژوهشگران چارچوب CAR را معرفی کردند؛ سیستمی که به جای شباهت معنایی، بر اساس توانایی سند در افزایش «اطمینان» مدل، رتبهبندی را تغییر میدهد. این رویکرد نویز را در خط لولههای تولید…

پژوهشگران پنجرهای حیاتی در آموزش مدلهای ترنسفورمر کشف کردهاند که تعیین میکند مدل واقعاً استدلال کند یا صرفاً دادهها را حفظ کند. نکتهی غافلگیرکننده این است که زمانبندی…

پژوهشگران با معرفی LongSeeker، پارادایم جدیدی برای مدیریت حافظه در عاملهای جستجو ایجاد کردهاند. این مدل با حذف دادههای زائد، دقت جستجوهای پیچیده را به ۶۲.۵٪ رسانده و رقبای…

یک سیستم جدید عاملمحور توانسته است با ساخت و بازنویسی مدلهای دنیای پایتونی، پازلهای پیچیده ARC-AGI-3 را حل کند. این دستاورد، معیار جدیدی برای استدلال عمومی در هوش مصنوعی تعریف…

پژوهشگران با معرفی Uno-Orchestra، سیستمی برای بهینهسازی همزمان تجزیه تکالیف و انتخاب مدل طراحی کردهاند. این رویکرد دقت را ۱۶ درصد افزایش و هزینههای استنتاج را تا ۱۰ برابر کاهش…

پژوهشگران راهی برای اجرای الگوریتمهای استاندارد Bandit در مسائل T-MDP یافتهاند که مانع رشد نمایی حافظه میشود. این متد با استفاده از کرانهای اطمینان مشترک، محاسبات را به سطح…

پژوهشگران مدل NRI را معرفی کردند؛ سیستمی که میتواند بدون نیاز به بازآموزی، قوانین منطقی را در حالت صفر-شات استخراج کند. این مدل با تکیه بر ویژگیهای آماری، استدلال نمادین را از…

پژوهشگران چارچوب جدیدی به نام Strat-Reasoner معرفی کردهاند که به مدلهای زبانی اجازه میدهد فرآیند استدلال رقبای خود را مدلسازی کنند. این رویکرد بازگشتی منجر به افزایش ۲۲.۱…