
گزارش BenchLM: پیشتازی ۴ امتیازی Claude Opus 4.8 در برابر GPT-5.5
تحلیل فنی هشت مدل پیشرو در ژوئن ۲۰۲۶ نشاندهنده شکاف میان قدرت کدنویسی خام و استقلال عاملمحور است. در حالی که Claude Opus 4.8 در بنچمارکهای عینی پیشتازی میکند، GPT-5.5 همچنان…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۳ مقاله منتشر شده

تحلیل فنی هشت مدل پیشرو در ژوئن ۲۰۲۶ نشاندهنده شکاف میان قدرت کدنویسی خام و استقلال عاملمحور است. در حالی که Claude Opus 4.8 در بنچمارکهای عینی پیشتازی میکند، GPT-5.5 همچنان…

خطاهای سیستمهای هوش مصنوعی حقوقی، مانند استنادهای ساختگی، ریشه در نقص معماری و عدم تطابق بازیابی احتمالی با ساختار سلسلهمراتبی قوانین دارند. چارچوب پیشنهادی جدید با رویکرد…

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانتهای ریاضیاتی علیه توهمات و حذف دادههای حیاتی در خلاصههای پزشکی ارائه میدهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

پژوهشگران بنچمارک OmniGameArena را برای اندازهگیری نحوه بهبود عاملهای مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کردهاند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

پژوهشگران دریافتند که توکنهای بصری در مدلهای چندوجهی پیش از رسیدن به لایههای نهایی اشباع میشوند. چارچوب DPVR-LF با مسیریابی این توکنها به یک شاخه جانبی، عملکرد مدل را با تنها…

محققان مجموعهدادهی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش میکند که سیستمهای فعلی هوش مصنوعی در تشخیص ناهماهنگیهای تاریخی ظریف و…

تحلیلی بر مدلهای بنیادی ویدیو نشان میدهد که V-JEPA در درک قوانین فیزیک شهودی را به مدلهای مبتنی بر انتشار و بازسازی پیشی میبرد. این یافتهها تأیید میکند که هدف پیشآموزش…

چارچوب ReCoVLA با استفاده از مدلهای چندوجهی برای هدایت پاداشها، توانایی رباتها در بازیابی از شکستها را بدون نیاز به بازآموزی سیاست اصلی افزایش میدهد. این روش نرخ موفقیت…

چارچوب Anything2Skill با تبدیل دانش خارجی پراکنده به قراردادهای مهارتی ساختاریافته، شکاف بین «خواندن مستندات» و «اجرای وظیفه» را پر میکند. این رویکرد باعث افزایش نرخ موفقیت…

پژوهشگران ابزاری به نام AGENTSERVESIM را معرفی کردهاند که امکان شبیهسازی دقیق عملکرد سختافزاری عاملهای هوش مصنوعی را روی پردازندههای معمولی (CPU) فراهم میکند. این ابزار با…

پژوهشگران چارچوبی برای مدلهای زبانی ابداع کردهاند که به جای امتیازدهی ساده، از منطق فیزیکوشیمیایی برای طراحی مولکولها استفاده میکند. این روش در وظایف متوسط به موفقیت ۱۰۰ درصدی…

چارچوب Reasoning Arena با جایگزینی سیگنالهای باینری با تورنمنتهای مقایسهای، دقت مدلها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…