موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۸ مقاله منتشر شده

Recursive Superintelligence: ۶۵۰ میلیون دلار برای حذف انسان از چرخه پژوهش AI

استارتاپی جدید با سرمایه‌ای ۶۵۰ میلیون دلاری به دنبال دستیابی به خودبهبودی بازگشتی است. هدف این تیم، ساخت مدل‌هایی است که به‌طور خودکار نقاط ضعف خود را شناسایی و اصلاح کنند تا…

۲ دقیقه خواندن

$گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد$

آموزش کاربردیماه گذشته

گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد

گوگل دیپ‌مایند خانواده مدل‌های Gemma 4 را با وزن‌های باز عرضه کرد تا استدلال سطح پیشرو را به سخت‌افزارهای محلی بیاورد. مدل ۳۱ میلیارد پارامتری این خانواده، جهشی خیره‌کننده در…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

مایکروسافت: ۱۰۰ عامل هوش مصنوعی ۱۶ آسیب‌پذیری جدید در ویندوز پیدا کردند

مایکروسافت با استفاده از سامانه MDASH و ۱۰۰ عامل هوش مصنوعی، ۱۶ حفره امنیتی جدید در ویندوز شناسایی کرد. این سیستم با استفاده از یک سازوکار بحث و بررسی، توانست ۴ نقص بحرانی در هسته…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

دیپ‌سیک-V4: هزینه استنتاج یک میلیون توکن به ۲۷ درصد نسخه V3.2 رسید

مدل DeepSeek-V4 با معرفی معماری Hybrid Attention، هزینه محاسباتی استنتاج در پنجره‌های متنی یک میلیون توکنی را به‌شدت کاهش داد. این مدل با تمرکز بر بهینه‌سازی عامل‌های خودکار،…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

گزارش dev.to: برتری Claude 4.6 در کدنویسی پیچیده و استدلال‌های سطح دکترا

مدل Claude 4.6 در کدنویسی و استدلال‌های پیچیده پیشتاست، در حالی که GPT-5.4 در ابزارهای اکوسیستمی برتری دارد. برنامه‌نویسان اکنون به‌جای جست‌وجوی یک مدل «بهترین»، از استراتژی…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

داده‌های LMSYS: افت پنهان عملکرد مدل‌های پرچم‌دار در سایه‌ی «نرفینگ»

یک سامانه ردیابی جدید با تحلیل تاریخچه امتیازات LMSYS Arena، کاهش پنهان کیفیت مدل‌های برتر هوش مصنوعی را افشا کرد. این پدیده که «نرفینگ» نامیده می‌شود، اغلب نتیجه‌ی سخت‌گیرانه‌تر…

۲ دقیقه خواندن

داستان‌ها و مصاحبه‌هاماه گذشته

درون مدل «نرم‌افزار ۳.۰» کارپاتی: وقتی عامل‌ها ۸۰٪ کد را می‌نویسند

آندری کارپاتی چارچوب «نرم‌افزار ۳.۰» را معرفی کرد و استدلال می‌کند که زبان طبیعی و کانتکست جایگزین کدهای صریح شده‌اند. در این مدل، نقش برنامه‌نویس از نویسنده‌ی منطق به ارکستراتور…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چرا بازیابی لغت‌محور هنوز در پژوهش‌های عمیق از جستجوی متراکم پیش می‌گیرد؟

پژوهش جدید Pi-Serini نشان می‌دهد که ترکیب بازیابی لغت‌محور (BM25) با مدل‌های پیشرو مانند GPT-5.5 در وظایف پژوهشی عمیق، عملکرد بهتری نسبت به سیستم‌های جستجوی متراکم دارد. این سیستم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

DeepSeek V4 در برابر GPT-5.5: نبرد بهره‌وری در برابر استقلال عامل‌محور

مدل DeepSeek V4-Pro عملکردی نزدیک به مدل‌های پیشرو و پنجره متنی ۱ میلیون توکنی را با کسری از هزینه GPT-5.5 ارائه می‌دهد. در حالی که OpenAI در گردش‌های کاری عامل‌محور پیشتاز است،…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

بهینه‌سازی Gemma 4 در لبه: جایگزینی تنظیم دقیق با سیستم امتیازدهی خودکار

توسعه‌دهندگان می‌توانند به‌جای تنظیم دقیق هزینه‌بر، از یک مدل بزرگ‌تر برای تولید و امتیازدهی به پرامپت‌های مدل‌های لبه استفاده کنند. این روش «ارتقای مهارت پرامپت» پایداری سیستم را…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

تغییر نقش عامل‌های هوش مصنوعی در VS Code 1.120: از دستیار به رابط اصلی

نسخه ۱.۱۲۰ ویرایشگر VS Code عامل‌های هوش مصنوعی را از یک ابزار جانبی به هسته مرکزی محیط توسعه تبدیل می‌کند. این به‌روزرسانی قابلیت برنامه‌ریزی چندمرحله‌ای برای Claude و کنترل دقیق…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

قمار ۶۵۰ میلیون دلاری Recursive برای عبور از «سد اطلاعاتی» هوش مصنوعی

استارتاپ Recursive با جذب ۶۵۰ میلیون دلار سرمایه، قصد دارد هوش مصنوعی‌ای بسازد که الگوریتم‌های خود را به‌طور بازگشتی بهبود ببخشد. هدف این شرکت خودکارسازی متد علمی برای عبور از…

۲ دقیقه خواندن