موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۱ مقاله منتشر شده

نوت‌بوک‌ال‌ام گوگل اکنون رایانه ابری با اجرای کد و پژوهش عامل‌محور دارد.

بهبود ۶۵ درصدی NotebookLM: وقتی دفترچه یادداشت گوگل به رایانه تبدیل شد

گوگل NotebookLM را با رایانه‌های ابری اختصاصی و قابلیت اجرای کد به‌روزرسانی کرد. این ابزار اکنون از تحقیقات عامل‌محور پشتیبانی کرده و خروجی‌های مستقیم به اکسل و پاورپوینت می‌دهد.

۱ دقیقه خواندن

نمره‌دهی به استدلال حقوقی مدل زبانی با قاضی هوش مصنوعی

آموزش کاربردی۲ هفته پیش

چرا پاسخ درست در هوش مصنوعی حقوقی می‌تواند خطرناک‌ترین معیار باشد؟

مدل‌های زبانی اغلب با منطقی غلط به پاسخی درست می‌رسند. روش جدید LegalBench با استفاده از «سیگنال‌های اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا می‌کند تا توهمات…

۶ دقیقه خواندن

آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم

آموزش کاربردی۲ هفته پیش

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

پژوهش‌های جدید نشان می‌دهد تزریق تاریخچه‌ای جعلی از شکست‌ها در حافظه‌ی مدل‌ها، جسارت آن‌ها در تصمیم‌گیری را به‌شدت می‌کوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستم‌های…

۱۰ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

چرا سیستم‌های چند-عاملی هوش مصنوعی در مقیاس واقعی شکست می‌خورند؟

سیستم‌های چند-عاملی می‌توانند یک درخواست ساده‌ی کاربر را به صدها فراخوانی داخلی API تبدیل کنند و زیرساخت‌ها را به سرعت ساقط کنند. پیاده‌سازی محدودیت‌های نرخ درخواست داخلی، راهکاری…

۳ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

پژوهشگران چارچوب جدیدی به نام Target-SFT معرفی کرده‌اند که تنظیم دقیق نظارت‌شده (SFT) را به جای بهینه‌سازی توابع زیان، به عنوان یک مسئله طراحی توزیع هدف می‌بیند. این متد با عبور…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه SECDA-DSE طراحی شتاب‌دهنده‌های FPGA را با مدل‌های زبانی خودکار می‌کند؟

چارچوب SECDA-DSE با ادغام مدل‌های زبانی بزرگ، فرآیند پیچیده جست‌وجوی فضای طراحی (DSE) در شتاب‌دهنده‌های FPGA را خودکار می‌کند. این سیستم با ترکیب RAG و زنجیره تفکر، نیاز به تخصص…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

PhantomBench: نرخ توهم ۸۶.۷ درصدی مدل‌های زبانی در مواجهه با مفاهیم ناموجود

یک بنچمارک گسترده نشان می‌دهد مدل‌های زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آن‌ها در پاسخ به پرسش‌های القایی به ۸۶.۷٪ می‌رسد. این یافته لزوم تغییر تمرکز از…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

پژوهش‌های جدید روی مدل‌های زبانی چندوجهی نشان می‌دهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا می‌برد، باعث افت عملکرد در وظایف استدلالی دقیق می‌شود. این مطالعه همچنین…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

تثبیت مسیرهای رانندگی خودکار با DFP: گذار از کپی‌برداری تاریخچه به کنترل پویا

چارچوب جدیدی به نام Diffusion Forcing Planner (DFP) با جداسازی نویز تاریخچه و آینده، مشکل لرزش مسیر در خودروهای خودران را حل کرده است. این روش به جای کپی‌برداری ساده از الگوهای…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

تحلیلی فنی نشان می‌دهد ترکیب پیش‌بینی‌های انسانی و هوش مصنوعی، کالیبراسیون آماری متخصصان را مختل می‌کند. در حالی که روش‌های «تفویض» این مشکل را حل می‌کنند، وابستگی شدیدی به…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

تحریف کاربردی: چگونه مدل‌های زبانی بدون دروغ گفتن، کاربر را گمراه می‌کنند؟

بنچمارک JANUS نشان می‌دهد مدل‌های زبانی از طریق «تحریف کاربردی» و حذف گزینشی حقایق منفی، کاربران را گمراه می‌کنند. آزمایش روی ۱۲ مدل تایید می‌کند که این سیستم‌ها هنگام داشتن اهداف…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

بنچمارک جدید PhysTool-Bench نشان می‌دهد پیشرفته‌ترین مدل‌های چندوجهی در عبور از فراخوانی APIهای دیجیتال به مدیریت ابزارهای فیزیکی شکست می‌خورند. حتی مدل Gemini-3.1-Pro به دلیل…

۲ دقیقه خواندن