
چرا دادههای تقویم و ایمیل، برتری مدلهای OpenAI را خنثی میکند؟
گوگل در حال تبدیل اپلیکیشن Gemini از یک چتبات ساده به یک مرکز فرماندهی شخصی است. این استراتژی با معرفی قابلیت Daily Brief و مدل ویدئویی Gemini Omni، قصد دارد با تکیه بر دادههای…
دستهبندی
تولید تصویر و ویدیو، صدای مصنوعی، هنر و موسیقی هوشمند، بازیها و وجه سرگرمکنندهی AI.
۲۰۰ مقاله منتشر شده

گوگل در حال تبدیل اپلیکیشن Gemini از یک چتبات ساده به یک مرکز فرماندهی شخصی است. این استراتژی با معرفی قابلیت Daily Brief و مدل ویدئویی Gemini Omni، قصد دارد با تکیه بر دادههای…

گوگل مدل Gemini Omni را معرفی کرد؛ ابزاری چندوجهی که با تحلیل همزمان متن، صدا و تصویر، ویدیوهای سازگار تولید میکند. نسخه Omni Flash هماکنون برای تولید محتوای کوتاه و آواتارهای…

گوگل دیپمایند با ادغام دادههای Street View در مدل Genie، محیطهای تعاملی و قابل ویرایشی از مکانهای واقعی خلق کرده است. این ابزار برای آموزش رباتها و خودروهای خودران ویمو طراحی…

شرکت Odyssey با معرفی Agora-1، مدلهای جهان را از حالت تککاربره خارج کرده و محیطهای شبیهسازیشدهی مشترک و بلادرنگ را ممکن ساخته است. این سیستم با جداسازی تکامل وضعیت جهان از…

ابزار جدید image-blaster با ترکیب Claude و مدلهای تخصصی، امکان تبدیل یک عکس به محیطهای سهبعدی، مشها و جلوههای صوتی را در کمتر از ۵ دقیقه فراهم میکند. این سیستم خط لوله تولید…

شرکت Runway از تولید ابزارهای ویدیوئی به سمت «مدلهای جهانی» حرکت میکند تا قوانین فیزیک را از طریق مشاهده یاد بگیرد. هدف این شرکت ساخت دوقلوی دیجیتالی جهان برای سرعت بخشیدن به…

نتفلیکس استودیوی داخلی INKubator را برای تولید انیمیشنهای کوتاه با استفاده از هوش مصنوعی زاینده راهاندازی کرد. هدف این واحد، عبور از ابزارهای پستولید و ایجاد یک خط تولید کاملاً…

استارتاپ Origin Lab با جذب ۸ میلیون دلار سرمایه، بازاری را برای فروش دادههای شبیهسازیشدهی بازیهای ویدئویی به آزمایشگاههای هوش مصنوعی ایجاد میکند. این دادهها برای آموزش…

شرکت Luma رابط برنامهنویسی (API) مدل Uni-1.1 را منتشر کرد تا با کیفیت و قیمت OpenAI رقابت کند. این مدل امکان تولید تصاویر با رزولوشن بالا و ویرایش پیشرفته را برای توسعهدهندگان…

چارچوب PoDAR با جداسازی توان سیگنال از محتوای معنایی در فضاهای نهان صوتی، سرعت همگرایی مدلهای زاینده را دو برابر میکند. این رویکرد در مدل F5-TTS منجر به بهبود چشمگیر شباهت…

ضرر سنگین شرکت Arup نشان داد که تکیه به تشخیص انسانی برای شناسایی جعل عمیق دیگر پاسخگو نیست. اکنون صنعت به سمت تحلیلهای الگوریتمی حرکت میکند تا استانداردهای قانونی «دقت معقول»…

یک طراح حرفهای فرمولی ۷ بخشی را معرفی کرده است که تصاویر Midjourney را از حالت مصنوعی خارج کرده و به استانداردهای تجاری میرساند. این روش با تکیه بر ارجاعات سختافزاری و…