پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی،…

۲ دقیقه خواندن۱
پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

مدل‌های زبانی بزرگ در بنچمارک‌های حقوقی نمرات بالایی کسب می‌کنند، اما در واقعیت منطق را اجرا نمی‌کنند. پژوهشی جدید نشان می‌دهد این مدل‌ها با تقلید از نتایج حل‌کننده‌های رسمی،…

۱ دقیقه خواندن
چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟
زندگی با AIتأییدنشده · منبع منفرد

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

برنامه‌نویسان در حال جایگزینی اشتراک‌های گران‌قیمت ابری با پشته‌های محلی بر پایه Qwen 3.6 و Pi.dev هستند. این روند، اولویت را از «استدلال سطح ارشد» به «حریم خصوصی و هزینه صفر»…

۹ دقیقه خواندن
عبور از مقیاس‌بندی: معماری سه‌گانه برای حل چالش آموزش سقراطی در LLMها

عبور از مقیاس‌بندی: معماری سه‌گانه برای حل چالش آموزش سقراطی در LLMها

افزایش مقیاس مدل‌های پیشرو نتوانسته است مشکل بنیادین آموزش‌های مبتنی بر هوش مصنوعی، یعنی مدیریت هم‌زمان برنامه درسی و گفتگو را حل کند. یک سیستم جدید با جداسازی مدیریت دانش از لایه…

۲ دقیقه خواندن
چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

بنچمارک جدید MedCTA نشان می‌دهد که پیشرفته‌ترین مدل‌های چندوجهی در اجرای وظایف بالینی چندمرحله‌ای شکست می‌خورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک داده‌های پزشکی و…

۱ دقیقه خواندن
رمزگشایی از «فیزیک مبهم» مدل Walrus با استفاده از اتوانکودرهای پراکنده

رمزگشایی از «فیزیک مبهم» مدل Walrus با استفاده از اتوانکودرهای پراکنده

پژوهشگران با تحلیل داخلی مدل Walrus دریافتند که موفقیت این مدل در پیش‌بینی پدیده‌های فیزیکی، ناشی از درک قوانین طبیعت نیست، بلکه نتیجه‌ی تقریب‌های آماری پیچیده است. این یافته نشان…

۲ دقیقه خواندن
چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

چرا شکست LLMها در بنچمارک‌های اخلاقی ناشی از خطای اندازه‌گیری است؟

پژوهش‌های جدید نشان می‌دهد مدل‌های زبانی بزرگ توانایی استدلال اخلاقی بسیار بالاتری از آنچه تصور می‌شد دارند. این پیشرفت از طریق تغییر متدولوژی ارزیابی — از پاسخ‌های باز به تولید…

۲ دقیقه خواندن
ترکیب GNN و LLM: عبور از حدس احتمالی به استنتاج قطعی در استدلال‌های پیچیده

ترکیب GNN و LLM: عبور از حدس احتمالی به استنتاج قطعی در استدلال‌های پیچیده

پژوهشگران چارچوبی هم‌افزا برای ادغام مدل‌های زبانی بزرگ با داده‌های گراف‌ساختار را پیشنهاد داده‌اند تا شکاف‌های استدلالی در تحلیل‌های چندمرحله‌ای را برطرف کنند. این رویکرد…

۱ دقیقه خواندن
چرا LLMها در یادگیری داده‌های جدولی، معمار بهتری هستند تا پیش‌بین؟

چرا LLMها در یادگیری داده‌های جدولی، معمار بهتری هستند تا پیش‌بین؟

چارچوب TAROT با تبدیل مدل‌های زبانی از پیش‌بین به معمار گراف‌های معنایی، دقت پیش‌بینی در مجموعه‌داده‌های جدولی کوچک را افزایش داده است. این سیستم با فیلتر کردن توهمات مدل زبانی،…

۲ دقیقه خواندن