موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

بنچمارک CVE-Bench: نرخ موفقیت GPT-5.5 در رفع آسیب‌پذیری‌های امنیتی ۵۰٪ است

مدل‌های پیشرو همچنان در رفع نیمی از آسیب‌پذیری‌های امنیتی واقعی ناتوان‌اند. بنچمارک CVE-Bench نشان می‌دهد که «استدلال امنیتی» در این مدل‌ها بیشتر شبیه به تطبیق الگو است تا تحلیل…

۲ دقیقه خواندن

آموزش کاربردی۴ هفته پیش

چگونه StepFun با معماری MoE سرعت استنتاج مدل‌های چندوجهی را بالا برد؟

شرکت StepFun مدل Step 3.7 Flash را معرفی کرد؛ یک مدل ۱۹۸ میلیارد پارامتری بهینه برای پردازنده‌های NVIDIA. این مدل استدلال چندوجهی در مقیاس سازمانی را با پنجره متنی ۲۵۶ هزار توکنی…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

OpenAI: مدل‌های GPT-4.5 و o3 تا اوت ۲۰۲۶ بازنشسته می‌شوند

شرکت OpenAI در حال بازسازی خط تولید مدل‌های خود است. این شرکت در کنار بهبود خوانایی GPT-5.5 Instant و حذف پنل Canvas، تاریخ بازنشستگی مدل‌های GPT-4.5 و o3 را برای سال ۲۰۲۶ اعلام…

۲ دقیقه خواندن

آموزش کاربردی۴ هفته پیش

داده‌های متا: ۹۲.۷٪ از قضایای ریاضی در ATLAS با موفقیت اثبات شدند

متا کتابخانه ATLAS را منتشر کرد؛ مجموعه‌ای عظیم از متون ریاضی که توسط هوش مصنوعی به کد Lean 4 تبدیل شده‌اند. این پایگاه داده با بیش از ۴۶ هزار قضیه اثبات‌شده، زیربنایی مقیاس‌پذیر…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

چگونه «هارنس» یا محیط ارزیابی، توانایی واقعی مدل‌های پیشرو را بازتعریف می‌کند؟

شرکت OpenAI در یک دستورالعمل فنی استدلال می‌کند که توانایی مدل‌های پیشرو یک مقدار ثابت نیست، بلکه متغیری وابسته به «هارنس» (Harness) یا همان محیط، ابزارها و بودجه محاسباتی است.…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

CogCAPTCHA30 و شکاف فرآیندی: چرا مدل‌های پیشرو در استدلال کمتر شبیه انسان هستند؟

پژوهشی جدید با معرفی «تست تورینگ فرآیندی» نشان می‌دهد که مدل‌های پیشرو با وجود ارائه پاسخ‌های صحیح، مسیری کاملاً متفاوت از انسان برای رسیدن به جواب طی می‌کنند. این مطالعه فاش…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

چرا وزن‌های مدل، گلوگاه واقعی عامل‌های هوش مصنوعی نیستند؟

پژوهشگران استنفورد و متا استدلال می‌کنند که عامل‌های هوش مصنوعی تنها یک مدل زبانی نیستند، بلکه ترکیبی از مدل و یک «هارنس» نرم‌افزاری‌اند. این لایه‌ی کد اجرایی است که تداوم وضعیت،…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

LFM2.5-8B-A1B: نمره ۹۱.۸۴ در IFEval با تنها ۱.۵ میلیارد پارامتر فعال

شرکت Liquid AI مدل LFM2.5-8B-A1B را معرفی کرد؛ یک مدل MoE برای اجرا روی دستگاه که تنها ۱.۵ میلیارد پارامتر فعال دارد. این مدل با کاهش شدید توهمات و بهبود استدلال، امکان اجرای هوش…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

Claude Opus 4.8: کاهش ۴ برابری خطاهای کدنویسی با متد آموزش صداقت

شرکت Anthropic مدل Claude Opus 4.8 را با تمرکز بر کاهش توهمات و افزایش صداقت در کدنویسی منتشر کرد. این به‌روزرسانی قابلیت کنترل میزان تلاش مدل و پیش‌نمایشی از گردش‌های کاری پویا…

۲ دقیقه خواندن

آموزش کاربردی۴ هفته پیش

چگونه Claude Code ۷۵۰ هزار خط کد Bun را در ۱۱ روز بازنویسی کرد؟

Claude Code با استفاده از جریان‌های کاری پویا، توانست پروژه Bun را در ۱۱ روز از Zig به Rust منتقل کند. این دستاورد با دقت ۹۹.۸ درصد در تست‌ها به دست آمد و نشان‌دهنده گذار از…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

RSI در برابر AGI: چرا خود-بهبودبخشی هدف جدید آزمایشگاه‌های هوش مصنوعی است؟

آزمایشگاه‌های هوش مصنوعی از هدف مبهم AGI به سمت RSI یا «خود-بهبودبخشی بازگشتی» حرکت کرده‌اند. هدف، ساخت سیستم‌هایی است که بتوانند بدون دخالت انسان، کد و معماری خود را ارتقا دهند.

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

معماری توکن‌بندی؛ دلیل شکست گوگل در ساده‌ترین آزمون‌های املایی

هوش مصنوعی گوگل در کارهای ساده‌ای مثل شمارش حروف و املا شکست می‌خورد. دلیل این اتفاق، پردازش متن به صورت توکن‌های عددی به جای حروف مجزا است.

۲ دقیقه خواندن