
گزارش ArXiv: کاهش ۲۸ درصدی توکنهای استنتاج از طریق استدلال بصری
پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کردهاند که تحلیلهای متنی داخلی را با نمایشهای تصویری جایگزین میکند. این رویکرد بدون کاهش دقت، حجم توکنهای مورد نیاز برای…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۷۵ مقاله منتشر شده

پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کردهاند که تحلیلهای متنی داخلی را با نمایشهای تصویری جایگزین میکند. این رویکرد بدون کاهش دقت، حجم توکنهای مورد نیاز برای…

یک بررسی جامع در arXiv نشان میدهد که مفهوم «خودتوضیحی» (SX) در سیستمهای هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیادهسازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

محققان ابزاری به نام PRISM را معرفی کردهاند که میتواند وضعیتهای پنهان مدلهای زبانی را به لیستهای خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریقهای…

پژوهشهای جدید نشان میدهد عاملهای هوش مصنوعی در ارزشگذاری داروها، بیش از آنکه با محدودیتهای استدلالی دستوپنجر باشند، با کمبود دادههای باکیفیت مواجهاند. دسترسی به مجموعه…

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدلهای زبانی با گیتهای تأیید قطعی، توانست تمام خطاهای تزریقشده در متون بالینی را شناسایی کند. در حالی که مدلهای زبانی معمولی…

چارچوب BSLI پایش فاضلاب شهری را از یک جریان دادهی غیرفعال به یک سامانهی تصمیمساز فعال تبدیل میکند. این سیستم با تعیین زمان دقیق نیاز به دادههای تکمیلی، توازن میان هزینهی…

پژوهشی جدید نشان میدهد تنظیم دقیق مدلهای زبانی روی تسکهای ایمنی محدود، میتواند منجر به همراستاسازی اخلاقی در دستههای کلی شود. این یافته مدل «انتخاب پرسونا» را تأیید میکند و…

بنچمارک جدید TheoremBench نشان میدهد که مدلهای زبانی با وجود موفقیت در مسائل مجزا، در مدیریت براهین پیچیده و وابسته به یکدیگر شکست میخورند. این مدلها به جای استدلال ساختاری،…

یک چارچوب آموزشی جدید با بهرهگیری از تقطیر دانش و بهینهسازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدلهای تجاری پیشرو در اتوماسیون کنسولهای ابری رسانده است. این سیستم ضمن…

رویکرد SIFT با جایگزینی تنسورهای حجیم KV با بردارهای بیتی فشرده، سرعت پیشتولید در سیستمهای RAG را به شکل چشمگیری افزایش میدهد. این متد حجم ذخیرهسازی مورد نیاز را ۲۴ هزار برابر…

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابهجا کرد. این سیستم به جای پردازش جامع دادههای صفحه، از مکانیزم…

بنچمارک جدید WeaveBench نشان میدهد که مدلهای پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیدهاند. این نتایج فاش میکند که عاملها در مدیریت گردشکارهای…