پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

ماهواره‌ای که خودش یاد گرفته اشیاء را روی زمین پیدا کند

خلاص شدن از گلوگاه داده‌ها: نخستین شناسایی مستقل اهداف در مدار با Gemma 3

ماهواره YAM-9 با استفاده از مدل Gemma 3 موفق شد برای نخستین بار اهداف زمینی را بدون دخالت انسان در مدار شناسایی کند. این انتقال پردازش به لبه، گلوگاه‌های ارسال داده را حذف کرده و…

۴ دقیقه خواندن
تصویری از حالت جدید هوش مصنوعی در فیس‌بوک

چگونه AI Mode متا گفتگوهای گروه‌های فیس‌بوک را به پاسخ‌های مستقیم تبدیل می‌کند؟

متا با معرفی AI Mode، پست‌های عمومی و بحث‌های گروه‌های فیس‌بوک را به پاسخ‌های مستقیم و خلاصه تبدیل می‌کند. این به‌روزرسانی شامل ابزارهای ویرایش عکس و دستیارهای تولید محتوا است و…

۳ دقیقه خواندن
چگونه کالیبراسیون Real2Sim2Real نیاز به بینایی در گرفتن اشیاء را حذف می‌کند؟

چگونه کالیبراسیون Real2Sim2Real نیاز به بینایی در گرفتن اشیاء را حذف می‌کند؟

پژوهشگران راهکاری برای دستیابی به مهارت گرفتن اشیاء بدون استفاده از دوربین ابداع کرده‌اند که صرفاً بر بازخوردهای لمسی تکیه می‌کند. این سیستم با استفاده از یک دوقلوی دیجیتال…

۲ دقیقه خواندن
چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

بنچمارک جدید MedCTA نشان می‌دهد که پیشرفته‌ترین مدل‌های چندوجهی در اجرای وظایف بالینی چندمرحله‌ای شکست می‌خورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک داده‌های پزشکی و…

۱ دقیقه خواندن
چرا توزیع چندوجهی هویت، جایگزین بهتری برای تک-تصویر در تولید ویدیو است؟

چرا توزیع چندوجهی هویت، جایگزین بهتری برای تک-تصویر در تولید ویدیو است؟

پلتفرم Argus با جایگزینی مدل‌های مرجع تک-تصویری با یک موزاییک پویا و ۳x۳، مشکل تغییر هویت سوژه در ویدیوهای ساخته‌شده با هوش مصنوعی را حل کرده است. این رویکرد باعث می‌شود چهره‌ها…

۲ دقیقه خواندن
چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

پژوهشگران چارچوب AVIS را معرفی کردند که با مقیاس‌گذاری تطبیقی توکن‌های بصری و مراحل استدلال، هزینه استنتاج مدل‌های چندوجهی را کاهش می‌دهد. این سیستم بدون نیاز به آموزش مجدد، تعادل…

۲ دقیقه خواندن
MODF-SIR: دستیابی به SOTA در استدلال اجتماعی با تنها ۳۰٪ از داده‌ها

MODF-SIR: دستیابی به SOTA در استدلال اجتماعی با تنها ۳۰٪ از داده‌ها

چارچوب MODF-SIR با ترکیب تقطیر دانش و تطبیق زمان تست، استدلال‌های اجتماعی پیچیده را با بهره‌گیری از تنها ۳۰٪ از مجموعه‌داده IntentTrain بهینه‌سازی کرده است. این مدل با تمرکز بر…

۱ دقیقه خواندن
معماری پایپ‌لاین ASR سه‌مدله روی گوشی با Claude Code
آموزش کاربردی

چرا تسلط بر سینتکس برنامه‌نویسی دیگر مزیت رقابتی توسعه‌دهندگان نیست؟

یک توسعه‌دهنده تک‌نفره توانست تنها در دو ماه اپلیکیشن Traverba را بسازد. او با استفاده از Claude Code، پیچیدگی‌های فنی کدنویسی موبایل را حذف کرد تا روی بهینه‌سازی حافظه و باتری در…

۴ دقیقه خواندن
پیکربندی Firebase AI Logic در اندروید برای مدل‌های Gemini
آموزش کاربردی

Firebase AI Logic: حذف کامل نیاز به سرور برای استقرار مدل‌های Gemini

توسعه‌دهندگان اندروید حالا می‌توانند مدل‌های Gemini را بدون نیاز به سرور بک‌اند در اپلیکیشن‌های خود پیاده کنند. این ابزار مسیر انتقال از نسخه‌های رایگان آزمایشی به مقیاس صنعتی در…

۵ دقیقه خواندن