موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرا Supertonic 3 در خواندن متون تخصصی از OpenAI و ElevenLabs پیشی گرفت؟

شرکت Supertone مدل Supertonic 3 را معرفی کرد؛ یک سیستم تبدیل متن به گفتار (TTS) سبک که روی دستگاه اجرا می‌شود و از ۳۱ زبان پشتیبانی می‌کند. این مدل در نرمال‌سازی متون پیچیده مالی…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه مچ‌بند عصبی متا حرکات عضلانی را به متن تبدیل می‌کند؟

متا قابلیت تایپ مجازی از طریق حرکات دست را برای تمام کاربران عینک‌های Meta Ray-Ban Display عرضه کرد. این به‌روزرسانی شامل ضبط نمایشگر، مسیریابی گسترده و زیرنویس زنده برای…

۲ دقیقه خواندن

$گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد$

آموزش کاربردیماه گذشته

گوگل: مدل Gemma 4 با دقت ۸۹.۲ درصدی در بنچمارک AIME، استدلال ریاضی را محلی کرد

گوگل دیپ‌مایند خانواده مدل‌های Gemma 4 را با وزن‌های باز عرضه کرد تا استدلال سطح پیشرو را به سخت‌افزارهای محلی بیاورد. مدل ۳۱ میلیارد پارامتری این خانواده، جهشی خیره‌کننده در…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه نقص‌های متادیتای GGUF سرعت استقرار مدل‌های محلی را کاهش می‌دهد؟

فرمت GGUF با یکپارچه‌سازی وزن‌ها و متادیتا، استقرار مدل‌های محلی را ساده کرده است. با این حال، نبود استانداردی برای فراخوانی ابزارها و توکن‌های استدلالی، توسعه‌دهندگان را مجبور به…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

درون چرخش ۲۳ میلیون دلاری Wirestock از عکاسی به تأمین داده‌های هوش مصنوعی

شرکت Wirestock با جذب ۲۳ میلیون دلار سرمایه، مدل کسب‌وکار خود را از توزیع عکس به تأمین داده‌های آموزشی برای مدل‌های بنیادی تغییر داد. این شرکت اکنون با درآمد سالانه ۴۰ میلیون…

۲ دقیقه خواندن

تحلیل و بررسی تخصصیماه گذشته

چگونه Qwen-Image-2.0 مراحل استنتاج را از ۴۰ به ۴ گام کاهش داد؟

مدل Qwen-Image-2.0 شرکت علی‌بابا با دوبرابر کردن فشرده‌سازی VAE و تقطیر استنتاج، تعداد گام‌های تولید تصویر را از ۴۰ به ۴ کاهش داده است. این مدل با استفاده از بلوک‌های SwiGLU و یک…

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

HERMES++: کاهش ۴۱.۶ درصدی خطای پیش‌بینی مسیر در افق ۳ ثانیه‌ای

مدل HERMES++ با ادغام درک سه‌بعدی صحنه و پیش‌بینی مسیر در یک شبکه واحد، دقت پیش‌بینی هندسه‌ی جاده را به‌طور چشم‌گیری افزایش داده است. این مدل برخلاف ابزارهای تخصصی پیشین، اجازه…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

۸ میلیون دلار سرمایه برای تبدیل محیط‌های بازی به داده‌های آموزشی مدل‌های جهانی

استارتاپ Origin Lab با جذب ۸ میلیون دلار سرمایه، بازاری را برای فروش داده‌های شبیه‌سازی‌شده‌ی بازی‌های ویدئویی به آزمایشگاه‌های هوش مصنوعی ایجاد می‌کند. این داده‌ها برای آموزش…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه درگاه‌های مدل یکپارچه هزینه ساخت همراهان هوش مصنوعی را ۴۰٪ کاهش می‌دهند؟

توسعه‌گران همراهان هوش مصنوعی با جایگزینی APIهای تک‌مدلی با درگاه‌های یکپارچه، هزینه‌های استنتاج را تا ۴۰٪ کاهش داده‌اند. این رویکرد اجازه می‌دهد شخصیت‌های دیجیتال از وابستگی به…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

Luma Uni-1.1: قیمت استنتاج تصاویر با کیفیت بالا به ۰.۰۴ دلار رسید

شرکت Luma رابط برنامه‌نویسی (API) مدل Uni-1.1 را منتشر کرد تا با کیفیت و قیمت OpenAI رقابت کند. این مدل امکان تولید تصاویر با رزولوشن بالا و ویرایش پیشرفته را برای توسعه‌دهندگان…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه NVIDIA جستجوی ویدئویی را از سیستم‌های هشدار به عامل‌های هوشمند تبدیل کرد؟

انویدیا با معرفی طرح VSS، جستجو و خلاصه‌سازی ویدئوها را به عامل‌های هوش مصنوعی سپرد. این فناوری اجازه می‌دهد آرشیوهای عظیم ویدئویی به‌جای هشارهای ساده، با زبان طبیعی مورد بازجویی…

۳ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه Magic Pointer گوگل نیاز به نوشتن پرامپت را حذف می‌کند؟

گوگل با ادغام Gemini در نشانگر ماوس، نیاز به تایپ دستی دستورات را حذف کرده است. این سیستم با درک بافت بصری صفحه، تعامل با هر المان را به یک اشاره ساده تبدیل می‌کند.

۲ دقیقه خواندن