سرگرمی و خلاقیت

نقشه‌های جریان؛ ترفندی برای تولید تصاویر باکیفیت در تنها یک گام

نقشه‌های جریان با جایگزینی پیش‌بینی سرعت‌های محلی با انتگرال‌گیری از مسیر، مدل‌های انتشار را متحول می‌کنند. این رویکرد اجازه می‌دهد تصاویر و ویدیوهای باکیفیت تنها در ۱ تا ۸ گام…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

پایان حریم خصوصی کودکان؛ وقتی استخوان‌های شما شناسنامه می‌شوند

متا برای شناسایی کاربران زیر ۱۳ سال، از هوش مصنوعی برای تحلیل ساختار استخوانی و قد در عکس‌ها استفاده می‌کند. این اقدام تهاجمی در پاسخ به جریمه ۳۷۵ میلیون دلاری شرکت در زمینه ایمنی…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

مرگ بازیگران مصنوعی در مسیر اسکار؛ خط قرمزی که هالیوود کشید

آکادمی اسکار هرگونه اثر یا بازیگری تولید شده توسط هوش مصنوعی را از چرخه جوایز حذف کرد. طبق قوانین جدید، اثبات نویسندگی و اجرای انسانی برای شرکت در رقابت‌ها اجباری است.

۲ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

فراتر از پیکسل‌ها؛ نقشه‌ی Runway برای تسخیر دنیای فیزیکی

مدیرعامل Runway معتقد است تولید ویدیو تنها پیش‌درآمدی برای خلق «مدل‌های جهان» است که واقعیت فیزیکی را شبیه‌سازی می‌کنند. این چرخش استراتژیک، هدف شرکت را از ابزارهای سینمایی به سمت…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه smol-audio سد محاسباتی تنظیم دقیق مدل‌های صوتی را شکست؟

تیم Deep-unlearning با معرفی smol-audio، دسترسی به تنظیم دقیق مدل‌های پیشرفته‌ی صوتی را از طریق نوت‌بوک‌های آماده‌ی Colab ممکن کرد. این ابزار با بهره‌گیری از اکوسیستم Hugging…

۲ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

۷۰ میلی‌ثانیه تا انسانیت: Mistral چگونه ElevenLabs را به چالش کشید؟

شرکت Mistral AI مدل Voxtral TTS را معرفی کرد؛ یک مدل ۴ میلیارد پارامتری که در طبیعی بودن صدا، ElevenLabs را شکست می‌دهد. این مدل با تأخیر بسیار کم و قابلیت تطبیق سریع صدا،…

۳ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

چرا اشتراک‌های ابری ویدئویی شما تا اواخر ۲۰۲۵ بی‌فایده می‌شوند

تولید ویدئو با هوش مصنوعی از ابر به دسکتاپ نقل مکان کرده است. مدل‌های جدیدی مانند HunyuanVideo کیفیت تجاری را روی سخت‌افزارهای مصرف‌کننده ممکن کرده‌اند و نیاز به اشتراک‌های…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

مایکروسافت با معرفی VibeVoice، عصر خرد کردن فایل‌های صوتی را به پایان رساند. این چارچوب قادر است فایل‌های ۶۰ دقیقه‌ای را در یک مرحله پردازش کند و انسجام لحن گوینده را در بازه‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تزریق ویژگی‌های لایه‌ای: رمز پیروزی MOSS-Audio بر مدل‌های حجیم

پلتفرم OpenMOSS با معرفی MOSS-Audio، مرزهای تحلیل صوتی را جابه‌جا کرد. این مدل بنیادی با معماری نوآورانه، توانسته است در نسخه‌ی ۸ میلیاردی خود، مدل‌های ۳۰ میلیاردی را در دقت تحلیل…

۳ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

پایان کابوس تغییر چهره: HappyHorse 1.0 چگونه پایداری بصری را ممکن کرد؟

علی‌بابا دسترسی عمومی به API مدل HappyHorse 1.0 را آغاز کرد تا تولید ویدیوهای صنعتی را متحول کند. این سیستم با ارائه چهار نقطه اتصال تخصصی، مشکل قدیمی «تغییر چهره» در ویدیوهای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان عصر مدل‌های همه‌کاره: نقشه جدید برای جریان‌های کاری خلاق

پژوهش جدید Contra Labs نشان می‌دهد که هیچ مدل هوش مصنوعی زاینده‌ای در تمام مراحل خلق اثر برنده نیست. این مطالعه تفاوت میان «سلیقه» و «استانداردهای حرفه‌ای» را رمزگشایی کرده و…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

گزارش انویدیا: کاهش ۳۳ درصدی زمان استنتاج AI در Unreal Engine 5

انویدیا با معرفی پلاگین TensorRT برای موتور عصبی Unreal Engine 5، سرعت استنتاج هوش مصنوعی را ۱.۵ برابر افزایش داد. این ابزار با استفاده از بهینه‌سازی JIT، زمان پردازش…

۳ دقیقه خواندن