موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

OpenAI: افزایش دقت GPT-Rosalind در آزمایشگاه‌های ژنومیک با ۳۱٪ توکن کمتر

مدل تخصصی GPT-Rosalind در به‌روزرسانی جدید خود، توانست در تحلیل‌های ژنومیک و کشف دارو، عملکرد GPT-5.5 را به طرز چشمگیری پیشی بگیرد. این مدل با ادغام ابزارهای عامل‌محور و همکاری با…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

سازوکار Gemma 4 برای اجرای مدل‌های چندوجهی روی لپ‌تاپ با ۱۶ گیگابایت رم

گوگل مدل Gemma 4 12B را منتشر کرد؛ مدل چندوجهی میان‌اندازه‌ای که بدون نیاز به انکودرهای مجزا، صدا و تصویر را پردازش می‌کند. این مدل با مجوز آپاچی ۲.۰، برای اجرا روی سخت‌افزارهای…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

درون استراتژی جدید مایکروسافت برای کاهش وابستگی به OpenAI

مایکروسافت با معرفی هفت مدل داخلی تحت برند MAI و سخت‌افزارهای عامل‌محور پروژه سولارا، تلاش می‌کند وابستگی استراتژیک خود به OpenAI را به حداقل برساند. این شرکت همچنین با تراشه…

۲ دقیقه خواندن

آموزش کاربردی۴ هفته پیش

مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

مدل GPT-5.4 در اصلاح کدهای برنامه‌نویسی دچار «ویرایش بیش‌ازحد» می‌شود و بدون افزایش دقت، ۶.۵ برابر بیشتر از Claude Opus 4.6 توکن تولید می‌کند. این شکاف کارایی منجر به اتلاف منابع…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

درون اعلامیه لایدن: چرا اثبات‌های «محتمل» هوش مصنوعی ریاضیات را تهدید می‌کند؟

ائتلافی از ۱۶ ریاضیدان برجسته و اتحادیه بین‌المللی ریاضیات با انتشار اعلامیه لایدن، وضعیت پژوهش‌های ریاضی را به خطر افتاده اعلام کردند. این مانیفست هشدار می‌دهد که اثبات‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

کاهش ۳۰ برابری مصرف توکن با جایگزینی حافظه مدل با «منطق عامل‌محور»

IBM استدلال می‌کند که مقیاس‌پذیری هوش مصنوعی سازمانی نیازمند «منطق عامل‌محور» (Agent Logic) است تا مدل‌های زبانی بزرگ را هدایت کند. این رویکرد با استفاده از گراف‌های دانش، توهمات…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

مطالعه استنفورد: هوش مصنوعی در ۷۵٪ تست‌های استدلال حقوقی از اساتید برتر بود

پژوهشی از دانشکده حقوق استنفورد نشان می‌دهد مدل‌های زبانی در تحلیل متون پیچیده قراردادها، ۷۵٪ بیشتر از اساتید حقوق مورد پذیرش قرار گرفتند. این یافته‌ها فرضیه محدودیت هوش مصنوعی در…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

مایکروسافت: مدل MAI-Code-1-Flash مصرف توکن را تا ۶۰٪ کاهش داد

مایکروسافت مدل MAI-Code-1-Flash را معرفی کرد که به جای بنچمارک‌های تئوری، بر کارایی واقعی در محیط تولید تمرکز دارد. این مدل در حل مسائل پیچیده کدنویسی، ۶۰٪ توکن کمتری نسبت به رقیب…

۲ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

MiniMax M3: شکستن انحصار حافظه یک میلیون توکنی در مدل‌های بازمتن

مدل M3 از شرکت MiniMax، نخستین مدل بازمتنی است که حافظه یک میلیون توکنی را با قابلیت‌های چندوجهی ترکیب می‌کند. این مدل در بنچمارک‌های کدنویسی و جستجوی وب، رقبای قدرتمندی چون…

۳ دقیقه خواندن

اخبار کوتاه روزانه۴ هفته پیش

حلقه ارزیابی: قطعه گم‌شده‌ای در معماری AI که مانع از کشف علم می‌شود

ریچارد ساتون، برنده جایزه تورینگ، معتقد است مدل‌های زبانی فعلی به دلیل نبود «حلقه ارزیابی» قادر به اکتشاف علمی نیستند. این مدل‌ها در تقلید عالی‌اند، اما برای کشف حقیقت به سیستمی…

۲ دقیقه خواندن

آموزش کاربردی۴ هفته پیش

RubricMiddleware لنگ‌چین: عبور از پرامپت‌نویسی به سمت تضمین کیفیت خودکار

لنگ‌چین ابزار RubricMiddleware را معرفی کرد تا عامل‌های هوش مصنوعی بتوانند خروجی‌های خود را بر اساس معیارهای مشخص اصلاح کنند. در این سیستم، یک عامل ارزیاب با استفاده از ابزارهای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۴ هفته پیش

کاهش ۱۰۰۰ برابری هزینه تأیید عامل‌های حقوقی با DeepSeek-V4-Flash

شرکت‌های LangChain و Harvey چارچوبی برای کاهش هزینه‌ی تأیید صحت عملکرد عامل‌های حقوقی پیچیده معرفی کرده‌اند. یافته‌های آن‌ها نشان می‌دهد مدل DeepSeek-V4-Flash می‌تواند با هزینه‌ای…

۳ دقیقه خواندن