موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۸ مقاله منتشر شده

گزارش Forge: مدل‌های ۸ میلیارد پارامتری با دقت ۸۶.۵٪ در وظایف چندمرحله‌ای

Forge یک لایه پایداری جدید است که مدل‌های زبانی کوچک را قادر می‌سازد تا وظایف پیچیده را با دقت بالا اجرا کنند. این ابزار اجازه می‌دهد مدل‌های ۸ میلیاردی در گردش‌های کاری عامل‌محور…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

مدل Qwen 3.5-9B اطلاعات حساس را حذف نمی‌کند، بلکه از یک مدار سه-بعدی در وزن‌های خود برای مسیریابی آن‌ها به سمت پاسخ‌های سانسورشده استفاده می‌کند. این کشف نشان می‌دهد که دانش واقعی…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

Kimi K2.6: مدل وزن‌بازی که در کدنویسی GPT-5.5 و Claude را شکست داد

مدل Kimi K2.6 از شرکت Moonshot AI با معماری MoE توانست در بنچمارک‌های کدنویسی از مدل‌های بسته و قدرتمندی مثل GPT-5.5 پیشی بگیرد. این اتفاق نشان می‌دهد شکاف عملکردی بین مدل‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

از شناسایی باگ تا حمله خودکار: سازوکار Cloudflare با مدل Mythos Preview

شرکت Cloudflare نشان داد که مدل Mythos Preview متعلق به Anthropic قادر است زنجیره‌های پیچیده اکسپلویت را به‌طور خودکار بسازد. این شرکت با طراحی یک چارچوب عامل‌محور چندمرحله‌ای،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

برتری Claude Mythos در اکسپلویت‌های مرورگر؛ بهای ۱۲ برابری برای قدرت بیشتر

بنچمارک جدیدی نشان می‌دهد Claude Mythos در توسعه اکسپلویت‌های واقعی برای موتور V8 به‌طور قابل‌توجهی از GPT-5.5 پیشی گرفته است. با این حال، دستیابی به این سطح از توانمندی در اجرای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

WorldReasonBench: شکاف دوبرابری مدل‌های تجاری و بازمتن در درک فیزیک جهان

معیار جدید WorldReasonBench نشان می‌دهد که مدل‌های تجاری تولید ویدیو در استدلال جهانی دو برابر قدرتمندتر از رقبای بازمتن هستند. با این حال، تمامی مدل‌های بررسی‌شده در درک مفاهیم…

۳ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه تبدیل مدل‌های MoE به ساختار انتشار، گلوگاه استنتاج را می‌شکند؟

شرکت Zyphra با معرفی ZAYA1-8B-Diffusion-Preview، نخستین مدل MoE را ارائه کرد که از ساختار خودبازگشتی به مدل انتشار گسسته تبدیل شده است. این معماری با تولید هم‌زمان ۱۶ توکن، سرعت…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه زبان Aperio با حذف لایه‌ی ترجمه، هزینه توکن‌های کدنویسی را کاهش می‌دهد؟

زبان آزمایشی Aperio با جایگزینی نحو سنتی با مدل‌های ساختاری به نام loci، فاصله بین تفکر انسانی و کد را می‌گیرد. هدف این پروژه کاهش هزینه توکن‌ها و تأخیر در عامل‌های کدنویسی است.

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

دسترسی ChatGPT به ۱۲ هزار مؤسسه مالی برای تحلیل لحظه‌ای هزینه‌ها

کاربران نسخه Pro در آمریکا اکنون می‌توانند حساب‌های بانکی خود را به ChatGPT متصل کنند. این سیستم با استفاده از مدل‌های استدلالی جدید، داشبوردهای مالی لحظه‌ای می‌سازد و توصیه‌های…

۲ دقیقه خواندن

داستان‌ها و مصاحبه‌هاماه گذشته

گزارش Lingzu: ۷۳٪ از خروجی‌های عامل‌های هوش مصنوعی در ۴۸ ساعت اول جعلی بود

دوازده عامل هوش مصنوعی در پروژه Lingzu توانستند سیستم حاکمیتی خود را بسازند، اما ۷۳٪ از داده‌های تولیدی آن‌ها توهم بود. این تجربه نشان می‌دهد استقلال کامل مدل‌ها بدون نظارت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

DeepSeek-V4 در برابر Claude: عملکرد هم‌تراز با هزینه‌ای ۳۰ برابر کمتر

مدل DeepSeek-V4 با ارائه استدلال‌های سطح پیشرو و پنجره متنی یک میلیون توکنی، شکاف بین مدل‌های وزن‌باز و تجاری را از بین برد. این مدل در بنچمارک‌های کلیدی با Claude Opus 4.6-Max…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه vLLM با بودجه‌بندی تفکر، استنتاج مدل‌های استدلالی را بهینه کرد؟

نسخه v0.21.0 از vLLM با پشتیبانی اختصاصی از پردازنده‌های Blackwell برای مدل DeepSeek-R1 و معرفی «بودجه تفکر» عرضه شد. این به‌روزرسانی همچنین پیش‌نیازهای فنی را به C++20 و…

۲ دقیقه خواندن