موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چگونه اوبر با مدل‌های استدلالی OpenAI فشار ذهنی رانندگان را گرفت

اوبر با پیاده‌سازی یک معماری عامل‌محور بر پایه OpenAI، منوهای پیچیده اپلیکیشن را با راهنمایی‌های صوتی و استدلالی جایگزین کرده است. این سیستم با هدف بهینه‌سازی درآمد رانندگان و…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

GENE-26.5؛ تلاش جسورانه Genesis AI برای عبور از شکاف تجسم

استارتاپ Genesis AI با معرفی مدل بنیادی GENE-26.5 و سخت‌افزارهای پیشرفته، قصد دارد شکاف میان داده‌های آموزشی و واقعیت فیزیکی را از بین ببرد. این سیستم با استفاده از دستکش‌های…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

پایان عصر آپلود اسکرین‌شات؛ درون معماری محلی Mininglamp-AI

پلتفرم Mininglamp-AI با عرضه یک اکوسیستم کامل برای تراشه‌های اپل، امکان اجرای عامل‌های گرافیکی را به‌صورت کاملاً محلی فراهم کرد. این اقدام ریسک‌های امنیتی آپلود داده‌ها در ابر را…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا رتبه‌های بالای ASR دیگر معیار موفقیت نیستند

پلتفرم Hugging Face با معرفی مجموعه‌داده‌های تست خصوصی، تلاش می‌کند جلوی تقلب مدل‌ها در بنچمارک‌های عمومی را بگیرد. این تغییر مسیر، معیار سنجش مدل‌های بازشناسی گفتار را از «حفظ…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

جراحی توهمات؛ استراتژی OpenAI برای تبدیل ChatGPT به یک متخصص مورد اعتماد

شرکت OpenAI مدل GPT-5.5 Instant را به عنوان موتور پیش‌فرض ChatGPT معرفی کرد تا توهمات در حوزه‌های حساس را حذف کند. این به‌روزرسانی با ادغام حافظه عمیق در Gmail و فایل‌ها، دقت…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه OpenAI با جداسازی لایه‌های شبکه، سرعت مکالمات AI را دگرگون کرد

OpenAI با بازطراحی زیرساخت WebRTC، تأخیر در مکالمات صوتی را برای ۹۰۰ میلیون کاربر کاهش داد. این شرکت با جداسازی مسیریابی بسته‌ها از پایانه‌های پروتکل، مشکل مقیاس‌پذیری در…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

پایان سلطه‌ی مدل‌های گران‌قیمت؛ شیائومی هزینه‌ی کدنویسی را ۶۰٪ کاهش داد

شیائومی با معرفی MiMo-V2.5-Pro، بازی را برای مدل‌های کدنویسی تغییر داد. این مدل با وزن‌های باز، عملکردی مشابه Claude Opus 4.6 دارد اما با مصرف توکن به‌مراتب کمتر.

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

دو دقیقه تا کپی کامل؛ رمزگشایی از موتور شبیه‌ساز صدای xAI

xAI ابزار Custom Voices را معرفی کرد که تنها با یک دقیقه نمونه صوتی، در کمتر از دو دقیقه صدای کاربر را شبیه‌سازی می‌کند. این سیستم با ادغام در APIهای Grok و استفاده از احراز هویت…

۲ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

فراتر از پیکسل‌ها؛ نقشه‌ی Runway برای تسخیر دنیای فیزیکی

مدیرعامل Runway معتقد است تولید ویدیو تنها پیش‌درآمدی برای خلق «مدل‌های جهان» است که واقعیت فیزیکی را شبیه‌سازی می‌کنند. این چرخش استراتژیک، هدف شرکت را از ابزارهای سینمایی به سمت…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا Flux Multilingual معماری فعلی عامل‌های صوتی شما را منسوخ می‌کند؟

دیپ‌گرام با معرفی Flux Multilingual، خط‌لوله‌های پیچیده تبدیل صوت را با یک مدل واحد برای ۱۰ زبان جایگزین کرد. این سیستم با گذار از transcription ساده به شناسایی محاوره‌ای، امکان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

یک بنچ‌مارک جدید فاش کرد که مدل‌های زبانی بزرگ اغلب JSONهای بی‌نقصی تولید می‌کنند که حاوی داده‌های کاملاً غلط است. این «شکاف دقت» ثابت می‌کند که رعایت ساختار (Schema Compliance)…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا Mistral برای شکست دادن رقبای MoE، دوباره به مدل‌های متراکم روی آورد؟

مدل Mistral Medium 3.5 با ۱۲۸ میلیارد پارامتر، مرز بین مدل‌های استدلالی و کدنویسی را از بین برد. این مدل متراکم، پایداری عملیاتی را جایگزین تخصص‌های پراکنده کرد تا یک ابزار…

۳ دقیقه خواندن