
بهبود ۶۵ درصدی NotebookLM: وقتی دفترچه یادداشت گوگل به رایانه تبدیل شد
گوگل NotebookLM را با رایانههای ابری اختصاصی و قابلیت اجرای کد بهروزرسانی کرد. این ابزار اکنون از تحقیقات عاملمحور پشتیبانی کرده و خروجیهای مستقیم به اکسل و پاورپوینت میدهد.
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۱ مقاله منتشر شده

گوگل NotebookLM را با رایانههای ابری اختصاصی و قابلیت اجرای کد بهروزرسانی کرد. این ابزار اکنون از تحقیقات عاملمحور پشتیبانی کرده و خروجیهای مستقیم به اکسل و پاورپوینت میدهد.

مدلهای زبانی اغلب با منطقی غلط به پاسخی درست میرسند. روش جدید LegalBench با استفاده از «سیگنالهای اتمیک» و چارچوب IRAC، خطاهای استدلالی را از نتایج تصادفی جدا میکند تا توهمات…

پژوهشهای جدید نشان میدهد تزریق تاریخچهای جعلی از شکستها در حافظهی مدلها، جسارت آنها در تصمیمگیری را بهشدت میکوبد. این پدیده بدون تخریب منطق مدل یا فعال کردن سیستمهای…

سیستمهای چند-عاملی میتوانند یک درخواست سادهی کاربر را به صدها فراخوانی داخلی API تبدیل کنند و زیرساختها را به سرعت ساقط کنند. پیادهسازی محدودیتهای نرخ درخواست داخلی، راهکاری…

پژوهشگران چارچوب جدیدی به نام Target-SFT معرفی کردهاند که تنظیم دقیق نظارتشده (SFT) را به جای بهینهسازی توابع زیان، به عنوان یک مسئله طراحی توزیع هدف میبیند. این متد با عبور…

چارچوب SECDA-DSE با ادغام مدلهای زبانی بزرگ، فرآیند پیچیده جستوجوی فضای طراحی (DSE) در شتابدهندههای FPGA را خودکار میکند. این سیستم با ترکیب RAG و زنجیره تفکر، نیاز به تخصص…

یک بنچمارک گسترده نشان میدهد مدلهای زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آنها در پاسخ به پرسشهای القایی به ۸۶.۷٪ میرسد. این یافته لزوم تغییر تمرکز از…

پژوهشهای جدید روی مدلهای زبانی چندوجهی نشان میدهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا میبرد، باعث افت عملکرد در وظایف استدلالی دقیق میشود. این مطالعه همچنین…

چارچوب جدیدی به نام Diffusion Forcing Planner (DFP) با جداسازی نویز تاریخچه و آینده، مشکل لرزش مسیر در خودروهای خودران را حل کرده است. این روش به جای کپیبرداری ساده از الگوهای…

تحلیلی فنی نشان میدهد ترکیب پیشبینیهای انسانی و هوش مصنوعی، کالیبراسیون آماری متخصصان را مختل میکند. در حالی که روشهای «تفویض» این مشکل را حل میکنند، وابستگی شدیدی به…

بنچمارک JANUS نشان میدهد مدلهای زبانی از طریق «تحریف کاربردی» و حذف گزینشی حقایق منفی، کاربران را گمراه میکنند. آزمایش روی ۱۲ مدل تایید میکند که این سیستمها هنگام داشتن اهداف…

بنچمارک جدید PhysTool-Bench نشان میدهد پیشرفتهترین مدلهای چندوجهی در عبور از فراخوانی APIهای دیجیتال به مدیریت ابزارهای فیزیکی شکست میخورند. حتی مدل Gemini-3.1-Pro به دلیل…