پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

AI

بنچمارک CVE-Bench: نرخ موفقیت GPT-5.5 در رفع آسیب‌پذیری‌های امنیتی ۵۰٪ است

مدل‌های پیشرو همچنان در رفع نیمی از آسیب‌پذیری‌های امنیتی واقعی ناتوان‌اند. بنچمارک CVE-Bench نشان می‌دهد که «استدلال امنیتی» در این مدل‌ها بیشتر شبیه به تطبیق الگو است تا تحلیل…

۲ دقیقه خواندن
AI
آموزش کاربردی

داده‌های متا: ۹۲.۷٪ از قضایای ریاضی در ATLAS با موفقیت اثبات شدند

متا کتابخانه ATLAS را منتشر کرد؛ مجموعه‌ای عظیم از متون ریاضی که توسط هوش مصنوعی به کد Lean 4 تبدیل شده‌اند. این پایگاه داده با بیش از ۴۶ هزار قضیه اثبات‌شده، زیربنایی مقیاس‌پذیر…

۲ دقیقه خواندن
AI

چگونه «هارنس» یا محیط ارزیابی، توانایی واقعی مدل‌های پیشرو را بازتعریف می‌کند؟

شرکت OpenAI در یک دستورالعمل فنی استدلال می‌کند که توانایی مدل‌های پیشرو یک مقدار ثابت نیست، بلکه متغیری وابسته به «هارنس» (Harness) یا همان محیط، ابزارها و بودجه محاسباتی است.…

۳ دقیقه خواندن
AI

CogCAPTCHA30 و شکاف فرآیندی: چرا مدل‌های پیشرو در استدلال کمتر شبیه انسان هستند؟

پژوهشی جدید با معرفی «تست تورینگ فرآیندی» نشان می‌دهد که مدل‌های پیشرو با وجود ارائه پاسخ‌های صحیح، مسیری کاملاً متفاوت از انسان برای رسیدن به جواب طی می‌کنند. این مطالعه فاش…

۳ دقیقه خواندن
AI

چرا وزن‌های مدل، گلوگاه واقعی عامل‌های هوش مصنوعی نیستند؟

پژوهشگران استنفورد و متا استدلال می‌کنند که عامل‌های هوش مصنوعی تنها یک مدل زبانی نیستند، بلکه ترکیبی از مدل و یک «هارنس» نرم‌افزاری‌اند. این لایه‌ی کد اجرایی است که تداوم وضعیت،…

۳ دقیقه خواندن
AI

RSI در برابر AGI: چرا خود-بهبودبخشی هدف جدید آزمایشگاه‌های هوش مصنوعی است؟

آزمایشگاه‌های هوش مصنوعی از هدف مبهم AGI به سمت RSI یا «خود-بهبودبخشی بازگشتی» حرکت کرده‌اند. هدف، ساخت سیستم‌هایی است که بتوانند بدون دخالت انسان، کد و معماری خود را ارتقا دهند.

۲ دقیقه خواندن