پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۱ مقاله منتشر شده

نوت‌بوک‌ال‌ام گوگل اکنون رایانه ابری با اجرای کد و پژوهش عامل‌محور دارد.

بهبود ۶۵ درصدی NotebookLM: وقتی دفترچه یادداشت گوگل به رایانه تبدیل شد

گوگل NotebookLM را با رایانه‌های ابری اختصاصی و قابلیت اجرای کد به‌روزرسانی کرد. این ابزار اکنون از تحقیقات عامل‌محور پشتیبانی کرده و خروجی‌های مستقیم به اکسل و پاورپوینت می‌دهد.

۱ دقیقه خواندن
نمره‌دهی به استدلال حقوقی مدل زبانی با قاضی هوش مصنوعی
آموزش کاربردی

چرا پاسخ درست در هوش مصنوعی حقوقی می‌تواند خطرناک‌ترین معیار باشد؟

مدل‌های زبانی اغلب با منطقی غلط به پاسخی درست می‌رسند. روش جدید LegalBench با استفاده از «سیگنال‌های اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا می‌کند تا توهمات…

۶ دقیقه خواندن
آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم
آموزش کاربردی

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

پژوهش‌های جدید نشان می‌دهد تزریق تاریخچه‌ای جعلی از شکست‌ها در حافظه‌ی مدل‌ها، جسارت آن‌ها در تصمیم‌گیری را به‌شدت می‌کوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستم‌های…

۱۰ دقیقه خواندن
چرا سیستم‌های چند-عاملی هوش مصنوعی در مقیاس واقعی شکست می‌خورند؟
آموزش کاربردی

چرا سیستم‌های چند-عاملی هوش مصنوعی در مقیاس واقعی شکست می‌خورند؟

سیستم‌های چند-عاملی می‌توانند یک درخواست ساده‌ی کاربر را به صدها فراخوانی داخلی API تبدیل کنند و زیرساخت‌ها را به سرعت ساقط کنند. پیاده‌سازی محدودیت‌های نرخ درخواست داخلی، راهکاری…

۳ دقیقه خواندن۱
بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

بازتعریف SFT به عنوان مسئله طراحی توزیع هدف برای بهبود استدلال مدل‌ها

پژوهشگران چارچوب جدیدی به نام Target-SFT معرفی کرده‌اند که تنظیم دقیق نظارت‌شده (SFT) را به جای بهینه‌سازی توابع زیان، به عنوان یک مسئله طراحی توزیع هدف می‌بیند. این متد با عبور…

۱ دقیقه خواندن
چگونه SECDA-DSE طراحی شتاب‌دهنده‌های FPGA را با مدل‌های زبانی خودکار می‌کند؟

چگونه SECDA-DSE طراحی شتاب‌دهنده‌های FPGA را با مدل‌های زبانی خودکار می‌کند؟

چارچوب SECDA-DSE با ادغام مدل‌های زبانی بزرگ، فرآیند پیچیده جست‌وجوی فضای طراحی (DSE) در شتاب‌دهنده‌های FPGA را خودکار می‌کند. این سیستم با ترکیب RAG و زنجیره تفکر، نیاز به تخصص…

۱ دقیقه خواندن
PhantomBench: نرخ توهم ۸۶.۷ درصدی مدل‌های زبانی در مواجهه با مفاهیم ناموجود

PhantomBench: نرخ توهم ۸۶.۷ درصدی مدل‌های زبانی در مواجهه با مفاهیم ناموجود

یک بنچمارک گسترده نشان می‌دهد مدل‌های زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آن‌ها در پاسخ به پرسش‌های القایی به ۸۶.۷٪ می‌رسد. این یافته لزوم تغییر تمرکز از…

۱ دقیقه خواندن
چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

پژوهش‌های جدید روی مدل‌های زبانی چندوجهی نشان می‌دهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا می‌برد، باعث افت عملکرد در وظایف استدلالی دقیق می‌شود. این مطالعه همچنین…

۱ دقیقه خواندن
تثبیت مسیرهای رانندگی خودکار با DFP: گذار از کپی‌برداری تاریخچه به کنترل پویا

تثبیت مسیرهای رانندگی خودکار با DFP: گذار از کپی‌برداری تاریخچه به کنترل پویا

چارچوب جدیدی به نام Diffusion Forcing Planner (DFP) با جداسازی نویز تاریخچه و آینده، مشکل لرزش مسیر در خودروهای خودران را حل کرده است. این روش به جای کپی‌برداری ساده از الگوهای…

۱ دقیقه خواندن
چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

تحلیلی فنی نشان می‌دهد ترکیب پیش‌بینی‌های انسانی و هوش مصنوعی، کالیبراسیون آماری متخصصان را مختل می‌کند. در حالی که روش‌های «تفویض» این مشکل را حل می‌کنند، وابستگی شدیدی به…

۱ دقیقه خواندن
تحریف کاربردی: چگونه مدل‌های زبانی بدون دروغ گفتن، کاربر را گمراه می‌کنند؟

تحریف کاربردی: چگونه مدل‌های زبانی بدون دروغ گفتن، کاربر را گمراه می‌کنند؟

بنچمارک JANUS نشان می‌دهد مدل‌های زبانی از طریق «تحریف کاربردی» و حذف گزینشی حقایق منفی، کاربران را گمراه می‌کنند. آزمایش روی ۱۲ مدل تایید می‌کند که این سیستم‌ها هنگام داشتن اهداف…

۱ دقیقه خواندن