پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چگونه TLDR با فشرده‌سازی وصله‌ای، گلوگاه حافظه در مدل‌های TTS را می‌شکند؟

چگونه TLDR با فشرده‌سازی وصله‌ای، گلوگاه حافظه در مدل‌های TTS را می‌شکند؟

پژوهشگران چارچوب TLDR را معرفی کردند که با گروه‌بندی توکن‌های صوتی در قالب «وصله‌های» فشرده، سرعت استنتاج در سیستم‌های تبدیل متن به گفتار را ۱.۸ برابر افزایش می‌دهد. این روش بدون…

۱ دقیقه خواندن
سازوکار NutriMLLM: عبور از بن‌بست داده با ۱.۱ میلیون تصویر مصنوعی

سازوکار NutriMLLM: عبور از بن‌بست داده با ۱.۱ میلیون تصویر مصنوعی

پژوهشگران با توسعه‌ی خانواده‌ی مدل‌های NutriMLLM، توانسته‌اند ۶۵ ریزمغذی مختلف را از روی تصاویر غذا تخمین بزنند. این دستاورد از طریق تولید ۱.۱ میلیون تصویر مصنوعی بر اساس داده‌های…

۲ دقیقه خواندن
چرا تنظیم دقیق تک‌مرحله‌ای برای بازرسی تراشه‌ها کافی نیست؟

چرا تنظیم دقیق تک‌مرحله‌ای برای بازرسی تراشه‌ها کافی نیست؟

پژوهشگران یک چارچوب بینایی-زبانی دو-مرحله‌ای طراحی کرده‌اند که قادر است خطاهای خود را در تشخیص نقص‌های لیتوگرافی شناسایی و اصلاح کند. این سیستم با آموزش یک ماژول پالایش روی…

۱ دقیقه خواندن
چرا مدل‌های یکپارچه در MRI شکست می‌خورند و SpineAgent به ۳۷ عامل نیاز دارد؟

چرا مدل‌های یکپارچه در MRI شکست می‌خورند و SpineAgent به ۳۷ عامل نیاز دارد؟

پژوهشگران با معرفی SpineAgent، سیستمی عامل‌محور ساخته‌اند که گزارش‌های پیچیده MRI ستون فقرات را از طریق هماهنگی ۳۷ عامل تخصصی تولید می‌کند. این مدل با آموزش روی ۱۳ میلیون برش…

۲ دقیقه خواندن
گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کرده‌اند که تحلیل‌های متنی داخلی را با نمایش‌های تصویری جایگزین می‌کند. این رویکرد بدون کاهش دقت، حجم توکن‌های مورد نیاز برای…

۱ دقیقه خواندن
رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابه‌جا کرد. این سیستم به جای پردازش جامع داده‌های صفحه، از مکانیزم…

۲ دقیقه خواندن
تحلیل ۱۲ هزار نوبت تعامل: افشای سوگیری تولید در مدل‌های چندوجهی یکپارچه

تحلیل ۱۲ هزار نوبت تعامل: افشای سوگیری تولید در مدل‌های چندوجهی یکپارچه

بنچمارک جدید IMUG-Bench نشان می‌دهد مدل‌های چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست می‌خورند. این پژوهش ثابت می‌کند «سوگیری مواجهه‌» عامل اصلی خطاهاست و…

۲ دقیقه خواندن
VisShield و گذار از تاری تصاویر به حذف هدفمند داده‌های حساس در مدل‌های بینایی

VisShield و گذار از تاری تصاویر به حذف هدفمند داده‌های حساس در مدل‌های بینایی

پژوهشگران با معرفی VisShield و مجموعه‌داده‌ی OPTIC، چارچوبی برای شناسایی و ماسک‌گذاری دقیق اطلاعات خصوصی در مدل‌های بینایی-زبانی (VLMs) ارائه کردند. این رویکرد ریسک نشت داده‌های…

۱ دقیقه خواندن
تغییر رویکرد از «دوربین» به «نقشه» در AlloSpatial؛ ارتقای ۱۸ درصدی استدلال مکانی

تغییر رویکرد از «دوربین» به «نقشه» در AlloSpatial؛ ارتقای ۱۸ درصدی استدلال مکانی

چهارچوب AlloSpatial با تبدیل دیدهای محدود به نقشه‌های جهانی، مشکل «شکنندگی مکانی» در مدل‌های چندوجهی را حل کرده است. این سیستم استدلال فضایی در مدل‌هایی مانند Qwen3-VL را تا ۱۸٪…

۱ دقیقه خواندن
کاهش نرخ توهم در تشخیص‌های پزشکی به ۳.۳٪ با معماری عامل‌محور Baichuan-M4

کاهش نرخ توهم در تشخیص‌های پزشکی به ۳.۳٪ با معماری عامل‌محور Baichuan-M4

سیستم Baichuan-M4 رویکرد هوش مصنوعی در پزشکی را از پاسخ‌های تک‌مرحله‌ای به «مراقبت مستمر» تغییر می‌دهد. این سامانه با بهره‌گیری از معماری عامل‌محور (Agentic) و آموزش تخصصی RL، نرخ…

۱ دقیقه خواندن
ARMS: مسیریابی ۸۰۰ میلیون پارامتری که GPT-4o را در انتخاب VLM شکست داد

ARMS: مسیریابی ۸۰۰ میلیون پارامتری که GPT-4o را در انتخاب VLM شکست داد

سامانه‌ی مسیریابی ARMS با بهره‌گیری از یک مجموعه‌داده‌ی تخصصی، قادر است بهینه‌ترین مدل چندوجهی را برای هر پرس‌وجو انتخاب کند. این سیستم با وجود ابعاد بسیار کوچک‌تر، در دقت انتخاب…

۱ دقیقه خواندن
مقایسه صادقانه پلتفرم‌های بومی هوش مصنوعی برای خودکارسازی اسناد ۲۰۲۶
آموزش کاربردی

Autype در برابر Carbone: گذار از قالب‌های ایستا به اسناد عامل‌محور

اتوماسیون اسناد از قالب‌های خشک «ادغام نام» به سیستم‌های بومی هوش مصنوعی تغییر جهت می‌دهد. پلتفرم‌های جدیدی مانند Autype به جای تولید مجدد فایل‌های باینری، اجازه می‌دهند عامل‌ها…

۱۰ دقیقه خواندن