پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

ساخت تری‌فورت: چرا یادگیری ماشین خالص را کنار گذاشتیم و موتور هوشمندی ساخت‌وساز ساختیم
آموزش کاربردی

Tri-Fort تخمین هزینه‌های ساخت‌ساز را از یادگیری ماشین به موتور ترکیبی تغییر داد

تیم Tri-Fort پس از کشف اینکه داده‌های آموزشی آن‌ها صرفاً تخمین‌های قبلی بوده‌اند و نه هزینه‌های واقعی، معماری خود را تغییر داد. آن‌ها اکنون از یک مدل ترکیبی استفاده می‌کنند که…

۶ دقیقه خواندن
کیوون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

تست‌های عملی روی مدل‌های محلی Qwen نشان می‌دهد که با وجود مزیت حریم خصوصی، این مدل‌ها در مدیریت پروژه‌های کدنویسی طولانی دچار «حلقه‌های تکرار» می‌شوند. این یافته‌ها فاصلهٔ…

۱۰ دقیقه خواندن
معیار ارزیابی ۷۵۰ وظیفه‌ای OpenAI برای سنجش هوش مصنوعی در پژوهش‌های علوم زیستی واقعی با راهنمای کارشناسی

LifeSciBench: مدل‌های برتر زیست‌شناسی در ۶۴٪ تکالیف پژوهشی شکست خوردند

OpenAI با معرفی محک LifeSciBench نشان داد که حتی پیشرفته‌ترین مدل‌های تخصصی زیست‌شناسی در مواجهه با مسائل پیچیده پژوهشی ناتوان‌اند. این داده‌ها حاکی از شکاف عمیق میان حفظ اطلاعات…

۶ دقیقه خواندن
آمازون، انویدیا و AMD ۳۱۰ میلیون دلار روی استارتاپ هوش مصنوعی سازنده مدل‌های سه‌بعدی جهان سرمایه‌گذاری کردند.

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

استارتاپ Odyssey با جذب ۳۱۰ میلیون دلار سرمایه در سری B، بر توسعه «مدل‌های جهانی» برای شبیه‌سازی قوانین فیزیک تمرکز می‌کند. این دور سرمایه‌گذاری با حمایت انویدیا، ای‌ام‌دی و…

۱ دقیقه خواندن
شبکه عصبی ساخته‌شده از بز در Age of Empires II برای نقد علم هوش مصنوعی

درون آزمایش مایکروسافت برای به چالش کشیدن منطقِ آگاهی در مدل‌های زبانی

یک پژوهشگر مایکروسافت با ساخت یک شبکه عصبی عملیاتی در محیط بازی Age of Empires II، نشان داد که «آگاهی» در هوش مصنوعی تنها یک توهم ناشی از بسته‌بندی ظاهری است. این مطالعه هشدار…

۵ دقیقه خواندن
نمودار معماری سیستم TREX: اجرای کد و تولید مصنوعات برای بازبینی هوشمند کد
آموزش کاربردی

تحلیل استاتیک در برابر اجرای پویا برای شناسایی باگ‌های رابط کاربری

شرکت Greptile لایه‌ی اجرایی TREX را معرفی کرد تا بررسی کدهای AI را از خواندن ساده به اجرای واقعی تغییر دهد. این رویکرد اجازه می‌دهد خطاهای منطقی و پس‌روی‌های رابط کاربری که در…

۷ دقیقه خواندن