تحلیل و بررسی تخصصی

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کرده‌اند که تحلیل‌های متنی داخلی را با نمایش‌های تصویری جایگزین می‌کند. این رویکرد بدون کاهش دقت، حجم توکن‌های مورد نیاز برای…

تحلیل و بررسی تخصصی۳ هفته پیش

چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

یک بررسی جامع در arXiv نشان می‌دهد که مفهوم «خودتوضیحی» (SX) در سیستم‌های هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیاده‌سازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه PRISM دستورات پنهان عامل‌های هوش مصنوعی را از دل فعال‌سازها بیرون می‌کشد؟

محققان ابزاری به نام PRISM را معرفی کرده‌اند که می‌تواند وضعیت‌های پنهان مدل‌های زبانی را به لیست‌های خوانای دستورات تبدیل کند. این فناوری امکان شناسایی اهداف مخفی و تزریق‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

پژوهش‌های جدید نشان می‌دهد عامل‌های هوش مصنوعی در ارزش‌گذاری داروها، بیش از آنکه با محدودیت‌های استدلالی دست‌وپنجر باشند، با کمبود داده‌های باکیفیت مواجه‌اند. دسترسی به مجموعه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدل‌های زبانی با گیت‌های تأیید قطعی، توانست تمام خطاهای تزریق‌شده در متون بالینی را شناسایی کند. در حالی که مدل‌های زبانی معمولی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بهینه‌سازی پایش آنفلوانزا از طریق استنتاج گزینشی متغیرهای پنهان (BSLI)

چارچوب BSLI پایش فاضلاب شهری را از یک جریان داده‌ی غیرفعال به یک سامانه‌ی تصمیم‌ساز فعال تبدیل می‌کند. این سیستم با تعیین زمان دقیق نیاز به داده‌های تکمیلی، توازن میان هزینه‌ی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مدل انتخاب پرسونا: چگونه آموزش ایمنی محدود، همراستاسازی جامع را تحریک می‌کند؟

پژوهشی جدید نشان می‌دهد تنظیم دقیق مدل‌های زبانی روی تسک‌های ایمنی محدود، می‌تواند منجر به همراستاسازی اخلاقی در دسته‌های کلی شود. این یافته مدل «انتخاب پرسونا» را تأیید می‌کند و…

۲ دقیقه خواندن

$TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی$

تحلیل و بررسی تخصصی۳ هفته پیش

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

بنچمارک جدید TheoremBench نشان می‌دهد که مدل‌های زبانی با وجود موفقیت در مسائل مجزا، در مدیریت براهین پیچیده و وابسته به یکدیگر شکست می‌خورند. این مدل‌ها به جای استدلال ساختاری،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

رویکرد SIFT با جایگزینی تنسورهای حجیم KV با بردارهای بیتی فشرده، سرعت پیش‌تولید در سیستم‌های RAG را به شکل چشمگیری افزایش می‌دهد. این متد حجم ذخیره‌سازی مورد نیاز را ۲۴ هزار برابر…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابه‌جا کرد. این سیستم به جای پردازش جامع داده‌های صفحه، از مکانیزم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

بنچمارک جدید WeaveBench نشان می‌دهد که مدل‌های پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیده‌اند. این نتایج فاش می‌کند که عامل‌ها در مدیریت گردش‌کارهای…

۱ دقیقه خواندن