
پایان توهم عاملهای همهکاره؛ ثروت واقعی در اتوماسیونهای خستهکننده است
در سال ۲۰۲۶، سودآوری در بازار هوش مصنوعی نه در مدلهای خارقالعاده، بلکه در اتوماسیون کارهای روزمره و خستهکننده نهفته است. تيجو گوچر استدلال میکند که قابلیت اطمینان در زمان…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۴۴ مقاله منتشر شده

در سال ۲۰۲۶، سودآوری در بازار هوش مصنوعی نه در مدلهای خارقالعاده، بلکه در اتوماسیون کارهای روزمره و خستهکننده نهفته است. تيجو گوچر استدلال میکند که قابلیت اطمینان در زمان…

پروژهی جدیدی به نام deepclaude امکان استفاده از قابلیتهای عاملمحور Claude Code را با جایگزینی مدل ارزانقیمت DeepSeek V4 Pro فراهم کرده است. این ابزار هزینههای عملیاتی را بدون…

مدل جدید Anthropic با شناسایی حفرههای امنیتی چنددهه-ساله در سختگیرانهترین سیستمها، مفهوم امنیت را تغییر داد. اکنون رقابت از «یافتن باگ» به «سرعت در وصله کردن» تبدیل شده است.

مدل o1 شرکت OpenAI در تشخیص بیماریهای بحرانی در اورژانس، پزشکان انسانی را شکست داد. با وجود دقت بالاتر، محققان هشدار میدهند که AI هنوز برای تصمیمات حیاتی و مستقل آماده نیست.

پژوهشگران MIT کشف کردند که مدلهای زبانی از طریق «برهمنهی قوی» مفاهیم متعددی را در ابعاد محدود میگنجانند. این یافته توضیح میدهد چرا افزایش عرض مدل باعث کاهش خطا میشود، اما…

شیائومی با معرفی MiMo-V2.5-Pro، بازی را برای مدلهای کدنویسی تغییر داد. این مدل با وزنهای باز، عملکردی مشابه Claude Opus 4.6 دارد اما با مصرف توکن بهمراتب کمتر.

مدل استدلالی جدید OpenAI در تشخیصهای پزشکی و موارد واقعی اورژانس، پزشکان انسانی را شکست داد. این نتیجه ثابت میکند که معماری زنجیره تفکر بدون نیاز به آموزشهای تخصصی، میتواند…

ابزار Trooper با ایجاد یک پروکسی سبک، مشکل قطع شدن گفتگوها هنگام اتمام سهمیه (Quota) مدلهای ابری را حل میکند. این ابزار با استراتژی فشردهسازی سهلایه، بافت گفتگو را هنگام…

یک پژوهشگر در Jane Street با استفاده از نظریه گروه ثابت کرد که فضای روشهای کدگذاری موقعیتی بسیار محدود است. این مطالعه نشان میدهد که استانداردهای فعلی مانند RoPE احتمالاً…

چارچوب جدیدی به نام مهندسی هارنس عاملمحور (AHE) به عاملهای کدنویس اجازه میدهد معماری خود را بهطور سیستماتیک تکامل دهند. این روش نرخ موفقیت را در بنچمارک Terminal-Bench 2 از…

تحلیلی از بنیاد ARC Prize نشان میدهد که GPT-5.5 و Opus 4.7 در تست ARC-AGI-3 شکست خوردهاند. این مطالعه ثابت میکند مدلهای پیشرو هنوز «تطبیقدهندههای الگو» هستند، نه…

xAI ابزار Custom Voices را معرفی کرد که تنها با یک دقیقه نمونه صوتی، در کمتر از دو دقیقه صدای کاربر را شبیهسازی میکند. این سیستم با ادغام در APIهای Grok و استفاده از احراز هویت…