پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

AI

OpenAI: افزایش دقت GPT-Rosalind در آزمایشگاه‌های ژنومیک با ۳۱٪ توکن کمتر

مدل تخصصی GPT-Rosalind در به‌روزرسانی جدید خود، توانست در تحلیل‌های ژنومیک و کشف دارو، عملکرد GPT-5.5 را به طرز چشمگیری پیشی بگیرد. این مدل با ادغام ابزارهای عامل‌محور و همکاری با…

۳ دقیقه خواندن
AI

سازوکار Gemma 4 برای اجرای مدل‌های چندوجهی روی لپ‌تاپ با ۱۶ گیگابایت رم

گوگل مدل Gemma 4 12B را منتشر کرد؛ مدل چندوجهی میان‌اندازه‌ای که بدون نیاز به انکودرهای مجزا، صدا و تصویر را پردازش می‌کند. این مدل با مجوز آپاچی ۲.۰، برای اجرا روی سخت‌افزارهای…

۳ دقیقه خواندن
AI

درون اعلامیه لایدن: چرا اثبات‌های «محتمل» هوش مصنوعی ریاضیات را تهدید می‌کند؟

ائتلافی از ۱۶ ریاضیدان برجسته و اتحادیه بین‌المللی ریاضیات با انتشار اعلامیه لایدن، وضعیت پژوهش‌های ریاضی را به خطر افتاده اعلام کردند. این مانیفست هشدار می‌دهد که اثبات‌های…

۲ دقیقه خواندن
AI

کاهش ۳۰ برابری مصرف توکن با جایگزینی حافظه مدل با «منطق عامل‌محور»

IBM استدلال می‌کند که مقیاس‌پذیری هوش مصنوعی سازمانی نیازمند «منطق عامل‌محور» (Agent Logic) است تا مدل‌های زبانی بزرگ را هدایت کند. این رویکرد با استفاده از گراف‌های دانش، توهمات…

۲ دقیقه خواندن
AI

مطالعه استنفورد: هوش مصنوعی در ۷۵٪ تست‌های استدلال حقوقی از اساتید برتر بود

پژوهشی از دانشکده حقوق استنفورد نشان می‌دهد مدل‌های زبانی در تحلیل متون پیچیده قراردادها، ۷۵٪ بیشتر از اساتید حقوق مورد پذیرش قرار گرفتند. این یافته‌ها فرضیه محدودیت هوش مصنوعی در…

۲ دقیقه خواندن
AI

MiniMax M3: شکستن انحصار حافظه یک میلیون توکنی در مدل‌های بازمتن

مدل M3 از شرکت MiniMax، نخستین مدل بازمتنی است که حافظه یک میلیون توکنی را با قابلیت‌های چندوجهی ترکیب می‌کند. این مدل در بنچمارک‌های کدنویسی و جستجوی وب، رقبای قدرتمندی چون…

۳ دقیقه خواندن
AI

حلقه ارزیابی: قطعه گم‌شده‌ای در معماری AI که مانع از کشف علم می‌شود

ریچارد ساتون، برنده جایزه تورینگ، معتقد است مدل‌های زبانی فعلی به دلیل نبود «حلقه ارزیابی» قادر به اکتشاف علمی نیستند. این مدل‌ها در تقلید عالی‌اند، اما برای کشف حقیقت به سیستمی…

۲ دقیقه خواندن
AI
آموزش کاربردی

RubricMiddleware لنگ‌چین: عبور از پرامپت‌نویسی به سمت تضمین کیفیت خودکار

لنگ‌چین ابزار RubricMiddleware را معرفی کرد تا عامل‌های هوش مصنوعی بتوانند خروجی‌های خود را بر اساس معیارهای مشخص اصلاح کنند. در این سیستم، یک عامل ارزیاب با استفاده از ابزارهای…

۲ دقیقه خواندن