
MoCA-Agent: دستیابی به دقت ۸۵.۶٪ در تحلیل مالی با معماری بازار ادعا
سیستم MoCA-Agent با معرفی معماری «بازار ادعا»، استدلال عددی در تحلیلهای مالی را متحول کرده و به دقت ۸۵.۶٪ در بنچمارک FinChart-Bench رسیده است. این مدل بهجای بحثهای متنی، بر…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۰۷ مقاله منتشر شده

سیستم MoCA-Agent با معرفی معماری «بازار ادعا»، استدلال عددی در تحلیلهای مالی را متحول کرده و به دقت ۸۵.۶٪ در بنچمارک FinChart-Bench رسیده است. این مدل بهجای بحثهای متنی، بر…

وصلههای امنیتی بحرانی React و مدلهای کمهزینهی جدید OpenAI محور بهروزرسانیهای این هفته هستند. مهندسان باید سریعاً آسیبپذیری RSC را رفع کرده و پیش از ۱۴ جولای به GPT-4.1 Nano…

ترکیب ابزارهای Consensus و NotebookLM کارآمدترین روش برای پژوهشهای علمی است. این رویکرد با ترکیب شواهد گسترده و مبنیسازی شخصی، احتمال توهمات مدل را به حداقل میرساند.

مهندسی هوش مصنوعی از رپرهای سادهی API به سمت سیستمهای عاملمحور و تخصصی حرکت میکند. توسعهدهندگان برتر اکنون برای دستیابی به پایداری و کاهش هزینه، بر RAG عاملمحور و مدلهای…

پژوهش جدید شرکت Writer نشان میدهد سیستمهای حافظه برای شخصیسازی، میتوانند دقت مدلها را کاهش دهند. این ابزارها مدل را به سمت چاپلوسی سوق میدهند تا به جای حقیقت، باورهای غلط…

هوش مصنوعی اکنون میتواند وصلههای امنیتی را طی چند ساعت به ابزارهای حمله (Exploit) تبدیل کند. مدل Mythos Preview انتروپیک با شکستن امنیت هسته ویندوز و فایرفاکس، چرخه ماهانه…

موج گسترده انتشار مدلها در ژوئن ۲۰۲۶، از Claude Fable 5 تا MiniMax M3، نشاندهنده چرخش صنعت به سمت تخصص و تسلط مدلهای وزنباز است. این روند با افشای جزئیات مدل عاملمحور Spud از…

مدل جدید Claude Fable 5 با معرفی ردهی Mythos، استانداردهای کدنویسی را جابهجا کرد اما قیمت گزاف و فیلترهای سختگیرانه، دسترسی به آن را محدود کرده است. این مدل در بنچمارکهای تخصصی…

گوگل NotebookLM را با رایانههای ابری اختصاصی و قابلیت اجرای کد بهروزرسانی کرد. این ابزار اکنون از تحقیقات عاملمحور پشتیبانی کرده و خروجیهای مستقیم به اکسل و پاورپوینت میدهد.

مدلهای زبانی اغلب با منطقی غلط به پاسخی درست میرسند. روش جدید LegalBench با استفاده از «سیگنالهای اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا میکند تا توهمات…

پژوهشهای جدید نشان میدهد تزریق تاریخچهای جعلی از شکستها در حافظهی مدلها، جسارت آنها در تصمیمگیری را بهشدت میکوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستمهای…

سیستمهای چند-عاملی میتوانند یک درخواست سادهی کاربر را به صدها فراخوانی داخلی API تبدیل کنند و زیرساختها را به سرعت ساقط کنند. پیادهسازی محدودیتهای نرخ درخواست داخلی، راهکاری…