پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۸ مقاله منتشر شده

گزارش Forge: مدل‌های ۸ میلیارد پارامتری با دقت ۸۶.۵٪ در وظایف چندمرحله‌ای
آموزش کاربردی

گزارش Forge: مدل‌های ۸ میلیارد پارامتری با دقت ۸۶.۵٪ در وظایف چندمرحله‌ای

Forge یک لایه پایداری جدید است که مدل‌های زبانی کوچک را قادر می‌سازد تا وظایف پیچیده را با دقت بالا اجرا کنند. این ابزار اجازه می‌دهد مدل‌های ۸ میلیاردی در گردش‌های کاری عامل‌محور…

۲ دقیقه خواندن
رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

رمزگشایی از سازوکار سانسور در Qwen 3.5: نقش فضای سه-بعدی در وزن‌های مدل

مدل Qwen 3.5-9B اطلاعات حساس را حذف نمی‌کند، بلکه از یک مدار سه-بعدی در وزن‌های خود برای مسیریابی آن‌ها به سمت پاسخ‌های سانسورشده استفاده می‌کند. این کشف نشان می‌دهد که دانش واقعی…

۲ دقیقه خواندن
برتری Claude Mythos در اکسپلویت‌های مرورگر؛ بهای ۱۲ برابری برای قدرت بیشتر

برتری Claude Mythos در اکسپلویت‌های مرورگر؛ بهای ۱۲ برابری برای قدرت بیشتر

بنچمارک جدیدی نشان می‌دهد Claude Mythos در توسعه اکسپلویت‌های واقعی برای موتور V8 به‌طور قابل‌توجهی از GPT-5.5 پیشی گرفته است. با این حال، دستیابی به این سطح از توانمندی در اجرای…

۲ دقیقه خواندن
WorldReasonBench: شکاف دوبرابری مدل‌های تجاری و بازمتن در درک فیزیک جهان

WorldReasonBench: شکاف دوبرابری مدل‌های تجاری و بازمتن در درک فیزیک جهان

معیار جدید WorldReasonBench نشان می‌دهد که مدل‌های تجاری تولید ویدیو در استدلال جهانی دو برابر قدرتمندتر از رقبای بازمتن هستند. با این حال، تمامی مدل‌های بررسی‌شده در درک مفاهیم…

۳ دقیقه خواندن
چگونه زبان Aperio با حذف لایه‌ی ترجمه، هزینه توکن‌های کدنویسی را کاهش می‌دهد؟
آموزش کاربردی

چگونه زبان Aperio با حذف لایه‌ی ترجمه، هزینه توکن‌های کدنویسی را کاهش می‌دهد؟

زبان آزمایشی Aperio با جایگزینی نحو سنتی با مدل‌های ساختاری به نام loci، فاصله بین تفکر انسانی و کد را می‌گیرد. هدف این پروژه کاهش هزینه توکن‌ها و تأخیر در عامل‌های کدنویسی است.

۲ دقیقه خواندن
دسترسی ChatGPT به ۱۲ هزار مؤسسه مالی برای تحلیل لحظه‌ای هزینه‌ها

دسترسی ChatGPT به ۱۲ هزار مؤسسه مالی برای تحلیل لحظه‌ای هزینه‌ها

کاربران نسخه Pro در آمریکا اکنون می‌توانند حساب‌های بانکی خود را به ChatGPT متصل کنند. این سیستم با استفاده از مدل‌های استدلالی جدید، داشبوردهای مالی لحظه‌ای می‌سازد و توصیه‌های…

۲ دقیقه خواندن
گزارش Lingzu: ۷۳٪ از خروجی‌های عامل‌های هوش مصنوعی در ۴۸ ساعت اول جعلی بود

گزارش Lingzu: ۷۳٪ از خروجی‌های عامل‌های هوش مصنوعی در ۴۸ ساعت اول جعلی بود

دوازده عامل هوش مصنوعی در پروژه Lingzu توانستند سیستم حاکمیتی خود را بسازند، اما ۷۳٪ از داده‌های تولیدی آن‌ها توهم بود. این تجربه نشان می‌دهد استقلال کامل مدل‌ها بدون نظارت…

۲ دقیقه خواندن