
چرا Gemini 2.5 Flash در پیشبینی دشواری وظایف شکست میخورد؟
ابزار جدیدی به نام کاوشگر فراشناختی نشان میدهد که مدلهای پیشرو میتوانند در یک بُعد از اطمینان دقیق باشند اما در بُعدی دیگر بهطور کامل شکست بخورند. این یافته نقطه کوری حیاتی در…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۳ مقاله منتشر شده

ابزار جدیدی به نام کاوشگر فراشناختی نشان میدهد که مدلهای پیشرو میتوانند در یک بُعد از اطمینان دقیق باشند اما در بُعدی دیگر بهطور کامل شکست بخورند. این یافته نقطه کوری حیاتی در…

مدلهای پیشرو در درک باورهای دیگران موفقاند اما در محیطهای سهبعدی نمیتوانند بر اساس این دانش عمل کنند. بنچمارک جدید EnactToM نشان میدهد هفت مدل برتر در تمامی وظایف دشوار…

هوش مصنوعی از یک ابزار کمکی به عاملهای خودکاری تبدیل شده که قادر به تکثیر سریع و حتی بازنویسی درایورهای سیستم هستند. این تحول، معماری مراکز داده را به سمتی میبرد که در آن…

شرکت AWS معماری چهارلایه جدیدی را برای پشتیبانی از «سه قانون مقیاسپذیری» مدلهای بنیادی معرفی کرد. این ساختار با ادغام پردازندههای NVIDIA Blackwell و شبکه EFAv4، تلاش میکند…

سازمان OWASP ابزاری متنباز برای مقابله با «مسمومیت حافظه» در عاملهای هوش مصنوعی معرفی کرد. این اسکنر دستورات مخربی را که در حافظه بلندمدت ذخیره شده و در جلسات آینده فعال…

دارون عجماوغلو، برنده جایزه نوبل اقتصاد، معتقد است عاملهای هوش مصنوعی بهدلیل فقدان مهارت «ارکستراسیون» یا مدیریت وظایف متنوع، نمیتوانند جایگزین انسان شوند. او هشدار میدهد که…

Interfaze یک معماری ترکیبی جدید است که دقت شبکههای عصبی قدیمی را با انعطافپذیری ترنسفورمرها ادغام کرده است. این مدل در وظایف قطعی مانند OCR و تبدیل گفتار به متن، مدلهای Mini…

مدل Ernie 5.1 شرکت بایدو با کاهش ۹۴ درصدی هزینههای پیشآموزش، جایگاه چهارم جهانی را در جدول Arena Search به دست آورد. این مدل با استفاده از یک چارچوب آموزشی الاستیک، توانسته است…

پروژه آزمایشی cuda-oxide امکان نوشتن هستههای GPU را با زبان Rust فراهم میکند. این ابزار با حذف نیاز به زبانهای تخصصی، مدلهای امنیتی Rust را مستقیماً به معماری CUDA میآورد.

هوش مصنوعی زمان تبدیل وصلههای امنیتی به ابزارهای نفوذ (Exploit) را به شدت کاهش داده است. طبق تحلیلهای کلودفلر، بازهٔ سنتی ۹۰ روزه برای گزارش باگها دیگر ایمن نیست زیرا مدلهای…

سیستم جدید و عاملمحور گوگل دیپمایند با ثبت رکورد ۴۸ درصدی در بنچمارک FrontierMath، توانست به یک پروفسور آکسفورد در حل یک مسئلهی ریاضی دشوار کمک کند. این دستاورد نشان میدهد که…

چارچوب RRCM با استفاده از GRPO بهطور پویا تصمیم میگیرد چه زمانی از شواهد مشارکتی یا متادیتا برای توصیهها استفاده کند. این رویکرد عاملمحور با حذف نویز، عملکرد مدلهای زبانی با…