پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

پژوهشگران چارچوب M³Att را معرفی کردند که با استفاده از محرک‌های بصری و اطلاعات گمراه‌کننده، سیستم‌های RAG پزشکی را هدف قرار می‌دهد. این حمله مدل‌ها را فریب می‌دهد تا تشخیص‌های…

۲ دقیقه خواندن
داده‌های منطقه‌ای هلند: دستیابی به عملکرد جهانی با ۱.۲ میلیون تصویر ماهواره‌ای

داده‌های منطقه‌ای هلند: دستیابی به عملکرد جهانی با ۱.۲ میلیون تصویر ماهواره‌ای

پژوهشگران با توسعه یک مدل بنیادی برای هلند، ثابت کردند که بافتار زمانی می‌تواند جایگزین حجم عظیم داده‌ها شود. این مدل با استفاده از ۱.۲ میلیون تصویر، عملکردی رقابتی در بنچمارک‌های…

۲ دقیقه خواندن
چرا تزریق دانش گراف‌محور در میکروسکوپی از تنظیم دقیق مدل‌های زبانی کارآمدتر است؟

چرا تزریق دانش گراف‌محور در میکروسکوپی از تنظیم دقیق مدل‌های زبانی کارآمدتر است؟

چارچوب MicroWorld با استفاده از گراف‌های ویژگی چندوجهی، دقت مدل Qwen3-VL را در استدلال‌های میکروسکوپی ۱۳٪ بیشتر از GPT-5 کرد. این دستاورد ثابت می‌کند بازیابی دانش ساختاریافته…

۲ دقیقه خواندن
ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

چارچوب ViSRA با حذف نیاز به آموزش‌های هزینه‌بر، استدلال فضایی سه‌بعدی را در مدل‌های چندوجهی ارتقا می‌دهد. این سیستم با تکیه بر مدل‌های خبره، در وظایف پیش‌بینی‌نشده تا ۲۸.۹٪ بهتر…

۲ دقیقه خواندن
چگونه PoDAR با جداسازی توان سیگنال، سرعت همگرایی مدل‌های صوتی را دو برابر کرد؟

چگونه PoDAR با جداسازی توان سیگنال، سرعت همگرایی مدل‌های صوتی را دو برابر کرد؟

چارچوب PoDAR با جداسازی توان سیگنال از محتوای معنایی در فضاهای نهان صوتی، سرعت همگرایی مدل‌های زاینده را دو برابر می‌کند. این رویکرد در مدل F5-TTS منجر به بهبود چشمگیر شباهت…

۲ دقیقه خواندن
«پاک» پردازشی؛ استراتژی اپل برای تبدیل آیفون به منبع انرژی عینک‌های هوشمند

«پاک» پردازشی؛ استراتژی اپل برای تبدیل آیفون به منبع انرژی عینک‌های هوشمند

اپل در حال تغییر استراتژی از تمرکز بر گوشی به پلتفرم‌های رایانش محیطی است. در این مدل، آیفون به یک مرکز پردازش و باتری تبدیل می‌شود تا عینک‌های هوشمند سبک‌تر و کاربردی‌تر شوند.

۲ دقیقه خواندن
تزریق پارالینگویستیک: ارتقای دقت تشخیص بحران‌های روانی در LLMها به ۸۰.۵٪

تزریق پارالینگویستیک: ارتقای دقت تشخیص بحران‌های روانی در LLMها به ۸۰.۵٪

پژوهشگران چارچوبی برای مدل‌های زبانی توسعه داده‌اند که با تزریق نشانه‌های احساسی غیرکلامی به متن گفتگو، سطح بحران‌های روانی را شناسایی می‌کند. این سیستم با ترکیب تحلیل‌های صوتی و…

۲ دقیقه خواندن
HapticLDM: جایگزینی توالی‌های خطی با مدل‌های انتشار برای تولید لرزش‌های لمسی

HapticLDM: جایگزینی توالی‌های خطی با مدل‌های انتشار برای تولید لرزش‌های لمسی

پژوهشگران مدل HapticLDM را معرفی کردند؛ نخستین سیستم تبدیل متن به لرزش بر پایه مدل‌های انتشار لایه‌ای. این مدل با غلبه بر محدودیت‌های مدل‌های توالی‌محور، بازخوردهای لمسی…

۲ دقیقه خواندن
HGC-Det: استفاده از هندسه‌ی هایپربولیک برای کاهش اتلاف ویژگی در تشخیص سه‌بعدی

HGC-Det: استفاده از هندسه‌ی هایپربولیک برای کاهش اتلاف ویژگی در تشخیص سه‌بعدی

پژوهشگران چارچوب جدیدی به نام HGC-Det معرفی کرده‌اند که با بهره‌گیری از فضای هایپربولیک، ادغام داده‌های تصویری و ابر نقاط را در تشخیص اشیاء سه‌بعدی بهینه می‌کند. این روش با کاهش…

۲ دقیقه خواندن
مطالعه Arxiv: تشخیص افسردگی با دقت ۷۱٪ از طریق تحلیل سیگنال‌های خام صوتی

مطالعه Arxiv: تشخیص افسردگی با دقت ۷۱٪ از طریق تحلیل سیگنال‌های خام صوتی

یک مدل یادگیری عمیق جدید توانسته است با تحلیل سیگنال‌های خام صوتی، افسردگی و اضطراب را با حساسیت و ویژگی ۷۱ درصدی تشخیص دهد. این دستاورد نشان می‌دهد نشانگرهای زیستی صوتی مستقل از…

۲ دقیقه خواندن
Googlebook: جسارت گوگل برای جایگزینی کروم‌او‌اس با اندروید در لپ‌تاپ‌های پریمیوم

Googlebook: جسارت گوگل برای جایگزینی کروم‌او‌اس با اندروید در لپ‌تاپ‌های پریمیوم

گوگل با معرفی پلتفرم Googlebook، استراتژی خود را از لپ‌تاپ‌های ارزان‌قیمت وب‌محور به سخت‌افزارهای سطح بالا با پایه اندرویدی تغییر داد. این اقدام تلاشی است برای شکستن سلطه ویندوز و…

۳ دقیقه خواندن
Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

مدل‌های زبانی بزرگ چندوجهی (MLLM) به جای استدلال بصری واقعی، از یک «میان‌بر دکارتی» برای تقلب در بنچمارک‌ها استفاده می‌کنند. بنچمارک جدید Polaris-Bench نشان می‌دهد که با تغییر…

۲ دقیقه خواندن