موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی،…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی،…

۱ دقیقه خواندن

Z.ai مدل GLM-5.2 را با کانتکست یک میلیون توکن کاربردی، دو سطح تلاش فکری و بدون بنچمارک عرضه کرد

آموزش کاربردی۲ هفته پیش

از ویرایش تکه‌ای به مدیریت کل پروژه؛ سازوکار یک میلیون توکنی GLM-5.2

شرکت Z.ai مدل GLM-5.2 را با پنجره متنی یک میلیون توکنی معرفی کرد تا امکان بارگذاری کامل مخازن کد در حافظه فعال فراهم شود. این مدل با ابزارهایی مثل Claude Code سازگار است و دایره‌ی…

۴ دقیقه خواندن

زندگی با AI۲ هفته پیشتأییدنشده · منبع منفرد

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

برنامه‌نویسان در حال جایگزینی اشتراک‌های گران‌قیمت ابری با پشته‌های محلی بر پایه Qwen 3.6 و Pi.dev هستند. این روند، اولویت را از «استدلال سطح ارشد» به «حریم خصوصی و هزینه صفر»…

۹ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

مدل BridgeVLM با تبدیل گراف‌های علی به توکن‌های ساختاریافته، استدلال علی را در مدل‌های چندوجهی درونی کرده است. این رویکرد در وظایف پیچیده و خلاف-واقع، به‌طور قابل‌توجهی از…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

عبور از مقیاس‌بندی: معماری سه‌گانه برای حل چالش آموزش سقراطی در LLMها

افزایش مقیاس مدل‌های پیشرو نتوانسته است مشکل بنیادین آموزش‌های مبتنی بر هوش مصنوعی، یعنی مدیریت هم‌زمان برنامه درسی و گفتگو را حل کند. یک سیستم جدید با جداسازی مدیریت دانش از لایه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

بنچمارک جدید MedCTA نشان می‌دهد که پیشرفته‌ترین مدل‌های چندوجهی در اجرای وظایف بالینی چندمرحله‌ای شکست می‌خورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک داده‌های پزشکی و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

Autopilot: کاهش نرخ توهم در عامل‌های هوش مصنوعی از ۳۳.۷٪ به ۰.۶۷٪

مدل Autopilot با به‌کارگیری ماشین حالت متناهی (FSM)، ادعاهای نادرست عامل‌ها درباره اتمام موفقیت‌آمیز کار را حذف کرد. این معماری در بنچمارک SWE-bench Lite توانست نرخ توهم را از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

رمزگشایی از «فیزیک مبهم» مدل Walrus با استفاده از اتوانکودرهای پراکنده

پژوهشگران با تحلیل داخلی مدل Walrus دریافتند که موفقیت این مدل در پیش‌بینی پدیده‌های فیزیکی، ناشی از درک قوانین طبیعت نیست، بلکه نتیجه‌ی تقریب‌های آماری پیچیده است. این یافته نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

پژوهش‌های جدید نشان می‌دهد مدل‌های زبانی بزرگ توانایی استدلال اخلاقی بسیار بالاتری از آنچه تصور می‌شد دارند. این پیشرفت از طریق تغییر متدولوژی ارزیابی — از پاسخ‌های باز به تولید…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

ترکیب GNN و LLM: عبور از حدس احتمالی به استنتاج قطعی در استدلال‌های پیچیده

پژوهشگران چارچوبی هم‌افزا برای ادغام مدل‌های زبانی بزرگ با داده‌های گراف‌ساختار را پیشنهاد داده‌اند تا شکاف‌های استدلالی در تحلیل‌های چندمرحله‌ای را برطرف کنند. این رویکرد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا LLMها در یادگیری داده‌های جدولی، معمار بهتری هستند تا پیش‌بین؟

چارچوب TAROT با تبدیل مدل‌های زبانی از پیش‌بین به معمار گراف‌های معنایی، دقت پیش‌بینی در مجموعه‌داده‌های جدولی کوچک را افزایش داده است. این سیستم با فیلتر کردن توهمات مدل زبانی،…

۲ دقیقه خواندن