موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

ماهواره‌ای که خودش یاد گرفته اشیاء را روی زمین پیدا کند

خلاص شدن از گلوگاه داده‌ها: نخستین شناسایی مستقل اهداف در مدار با Gemma 3

ماهواره YAM-9 با استفاده از مدل Gemma 3 موفق شد برای نخستین بار اهداف زمینی را بدون دخالت انسان در مدار شناسایی کند. این انتقال پردازش به لبه، گلوگاه‌های ارسال داده را حذف کرده و…

۴ دقیقه خواندن

تصویری از حالت جدید هوش مصنوعی در فیس‌بوک

اخبار کوتاه روزانه۲ هفته پیش

چگونه AI Mode متا گفتگوهای گروه‌های فیس‌بوک را به پاسخ‌های مستقیم تبدیل می‌کند؟

متا با معرفی AI Mode، پست‌های عمومی و بحث‌های گروه‌های فیس‌بوک را به پاسخ‌های مستقیم و خلاصه تبدیل می‌کند. این به‌روزرسانی شامل ابزارهای ویرایش عکس و دستیارهای تولید محتوا است و…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه کالیبراسیون Real2Sim2Real نیاز به بینایی در گرفتن اشیاء را حذف می‌کند؟

پژوهشگران راهکاری برای دستیابی به مهارت گرفتن اشیاء بدون استفاده از دوربین ابداع کرده‌اند که صرفاً بر بازخوردهای لمسی تکیه می‌کند. این سیستم با استفاده از یک دوقلوی دیجیتال…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

مدل BridgeVLM با تبدیل گراف‌های علی به توکن‌های ساختاریافته، استدلال علی را در مدل‌های چندوجهی درونی کرده است. این رویکرد در وظایف پیچیده و خلاف-واقع، به‌طور قابل‌توجهی از…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا ادراک بصری پیشرفته در مدل‌های پزشکی به معنای موفقیت در اجرای عامل‌محور نیست؟

بنچمارک جدید MedCTA نشان می‌دهد که پیشرفته‌ترین مدل‌های چندوجهی در اجرای وظایف بالینی چندمرحله‌ای شکست می‌خورند. این مطالعه شکاف عمیقی را میان توانایی مدل در درک داده‌های پزشکی و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا توزیع چندوجهی هویت، جایگزین بهتری برای تک-تصویر در تولید ویدیو است؟

پلتفرم Argus با جایگزینی مدل‌های مرجع تک-تصویری با یک موزاییک پویا و ۳x۳، مشکل تغییر هویت سوژه در ویدیوهای ساخته‌شده با هوش مصنوعی را حل کرده است. این رویکرد باعث می‌شود چهره‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا دقت بالای مدل‌های چندوجهی دیگر نیازمند افزایش خطی محاسبات نیست؟

پژوهشگران چارچوب AVIS را معرفی کردند که با مقیاس‌گذاری تطبیقی توکن‌های بصری و مراحل استدلال، هزینه استنتاج مدل‌های چندوجهی را کاهش می‌دهد. این سیستم بدون نیاز به آموزش مجدد، تعادل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

MODF-SIR: دستیابی به SOTA در استدلال اجتماعی با تنها ۳۰٪ از داده‌ها

چارچوب MODF-SIR با ترکیب تقطیر دانش و تطبیق زمان تست، استدلال‌های اجتماعی پیچیده را با بهره‌گیری از تنها ۳۰٪ از مجموعه‌داده IntentTrain بهینه‌سازی کرده است. این مدل با تمرکز بر…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

AutoMine: کسب امتیاز ۷۷.۲۱ در چالش سناریوهای Argoverse 2

AutoMine با ترکیب مدل‌های زبانی و بینایی، استخراج خودکار سناریوهای بحرانی رانندگی از داده‌های حجیم را ممکن کرده است. این چارچوب با استفاده از حلقه‌ی اصلاح کد، توانست در رقابت…

۱ دقیقه خواندن

معماری پایپ‌لاین ASR سه‌مدله روی گوشی با Claude Code

آموزش کاربردی۲ هفته پیش

چرا تسلط بر سینتکس برنامه‌نویسی دیگر مزیت رقابتی توسعه‌دهندگان نیست؟

یک توسعه‌دهنده تک‌نفره توانست تنها در دو ماه اپلیکیشن Traverba را بسازد. او با استفاده از Claude Code، پیچیدگی‌های فنی کدنویسی موبایل را حذف کرد تا روی بهینه‌سازی حافظه و باتری در…

۴ دقیقه خواندن

آموزش کاربردی۲ هفته پیش

HomeVision Studio: کاهش ۵۰ درصدی هزینه‌های بازطراحی داخلی در برابر Decor8 AI

پلتفرم **PixelAPI** ابزار **HomeVision Studio** را برای رندرینگ واقع‌گرایانه اتاق‌ها در ۱۰ ثانیه معرفی کرد. این ابزار با مدل پرداخت به‌ازای هر تولید، هزینه‌ها را به نصف رقبا کاهش…

۱ دقیقه خواندن

پیکربندی Firebase AI Logic در اندروید برای مدل‌های Gemini

آموزش کاربردی۲ هفته پیش

Firebase AI Logic: حذف کامل نیاز به سرور برای استقرار مدل‌های Gemini

توسعه‌دهندگان اندروید حالا می‌توانند مدل‌های Gemini را بدون نیاز به سرور بک‌اند در اپلیکیشن‌های خود پیاده کنند. این ابزار مسیر انتقال از نسخه‌های رایگان آزمایشی به مقیاس صنعتی در…

۵ دقیقه خواندن