موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

MoCA-Agent: دستیابی به دقت ۸۵.۶٪ در تحلیل مالی با معماری بازار ادعا

سیستم MoCA-Agent با معرفی معماری «بازار ادعا»، استدلال عددی در تحلیل‌های مالی را متحول کرده و به دقت ۸۵.۶٪ در بنچمارک FinChart-Bench رسیده است. این مدل به‌جای بحث‌های متنی، بر…

۱ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

GPT-4.1 Nano و امنیت React: ۶ به‌روزرسانی کلیدی برای پایداری عملیاتی AI

وصله‌های امنیتی بحرانی React و مدل‌های کم‌هزینه‌ی جدید OpenAI محور به‌روزرسانی‌های این هفته هستند. مهندسان باید سریعاً آسیب‌پذیری RSC را رفع کرده و پیش از ۱۴ جولای به GPT-4.1 Nano…

۶ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

چرا برای تحقیقات دانشگاهی به یک «استک» هوش مصنوعی نیاز دارید؟

ترکیب ابزارهای Consensus و NotebookLM کارآمدترین روش برای پژوهش‌های علمی است. این رویکرد با ترکیب شواهد گسترده و مبنی‌سازی شخصی، احتمال توهمات مدل را به حداقل می‌رساند.

۲ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

۵ معماری جایگزین رپرهای ChatGPT برای تبدیل نمونه‌های اولیه به محصول واقعی

مهندسی هوش مصنوعی از رپرهای ساده‌ی API به سمت سیستم‌های عامل‌محور و تخصصی حرکت می‌کند. توسعه‌دهندگان برتر اکنون برای دستیابی به پایداری و کاهش هزینه، بر RAG عامل‌محور و مدل‌های…

۶ دقیقه خواندن

چگونه ابزارهای حافظه مدل‌های هوش مصنوعی را بدتر می‌کنند

تحلیل و بررسی تخصصی۲ هفته پیش

چرا حافظه‌ی بلندمدت در مدل‌های زبانی منجر به افزایش چاپلوسی می‌شود؟

پژوهش جدید شرکت Writer نشان می‌دهد سیستم‌های حافظه برای شخصی‌سازی، می‌توانند دقت مدل‌ها را کاهش دهند. این ابزارها مدل را به سمت چاپلوسی سوق می‌دهند تا به جای حقیقت، باورهای غلط…

۳ دقیقه خواندن

مطالعه آنتروپیک: هوش مصنوعی ساعت‌ها نه هفته‌ها برای ساخت اکسپلویت از وصله امنیتی نیاز دارد

اخبار کوتاه روزانه۲ هفته پیش

گزارش انتروپیک: تبدیل وصله‌های امنیتی ویندوز به اکسپلویت در ۶ ساعت

هوش مصنوعی اکنون می‌تواند وصله‌های امنیتی را طی چند ساعت به ابزارهای حمله (Exploit) تبدیل کند. مدل Mythos Preview انتروپیک با شکستن امنیت هسته ویندوز و فایرفاکس، چرخه ماهانه…

۴ دقیقه خواندن

ژوئن ۲۰۲۶ شلوغ: Claude Fable 5، MiniMax M3، OpenAI Spud و ۲۵ مدل جدید

اخبار کوتاه روزانه۲ هفته پیش

۲۵ مدل هوش مصنوعی در یک هفته: عصر تخصص و وزن‌های باز

موج گسترده انتشار مدل‌ها در ژوئن ۲۰۲۶، از Claude Fable 5 تا MiniMax M3، نشان‌دهنده چرخش صنعت به سمت تخصص و تسلط مدل‌های وزن‌باز است. این روند با افشای جزئیات مدل عامل‌محور Spud از…

۲ دقیقه خواندن

آنتروپیک کلود فیبل ۵ و میتوس ۵ را با پیشرفت در کدنویسی و علوم منتشر کرد

اخبار کوتاه روزانه۲ هفته پیش

درون مدل Claude Fable 5: جهش فنی در کدنویسی و سد ۲۰ هزار دلاری

مدل جدید Claude Fable 5 با معرفی رده‌ی Mythos، استانداردهای کدنویسی را جابه‌جا کرد اما قیمت گزاف و فیلترهای سختگیرانه، دسترسی به آن را محدود کرده است. این مدل در بنچمارک‌های تخصصی…

۷ دقیقه خواندن۱

نوت‌بوک‌ال‌ام گوگل اکنون رایانه ابری با اجرای کد و پژوهش عامل‌محور دارد.

اخبار کوتاه روزانه۲ هفته پیش

بهبود ۶۵ درصدی NotebookLM: وقتی دفترچه یادداشت گوگل به رایانه تبدیل شد

گوگل NotebookLM را با رایانه‌های ابری اختصاصی و قابلیت اجرای کد به‌روزرسانی کرد. این ابزار اکنون از تحقیقات عامل‌محور پشتیبانی کرده و خروجی‌های مستقیم به اکسل و پاورپوینت می‌دهد.

۱ دقیقه خواندن

نمره‌دهی به استدلال حقوقی مدل زبانی با قاضی هوش مصنوعی

آموزش کاربردی۲ هفته پیش

چرا پاسخ درست در هوش مصنوعی حقوقی می‌تواند خطرناک‌ترین معیار باشد؟

مدل‌های زبانی اغلب با منطقی غلط به پاسخی درست می‌رسند. روش جدید LegalBench با استفاده از «سیگنال‌های اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا می‌کند تا توهمات…

۶ دقیقه خواندن

آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم

آموزش کاربردی۲ هفته پیش

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

پژوهش‌های جدید نشان می‌دهد تزریق تاریخچه‌ای جعلی از شکست‌ها در حافظه‌ی مدل‌ها، جسارت آن‌ها در تصمیم‌گیری را به‌شدت می‌کوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستم‌های…

۱۰ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

چرا سیستم‌های چند-عاملی هوش مصنوعی در مقیاس واقعی شکست می‌خورند؟

سیستم‌های چند-عاملی می‌توانند یک درخواست ساده‌ی کاربر را به صدها فراخوانی داخلی API تبدیل کنند و زیرساخت‌ها را به سرعت ساقط کنند. پیاده‌سازی محدودیت‌های نرخ درخواست داخلی، راهکاری…

۳ دقیقه خواندن۱