
محاسبات کد در برابر تخمینهای LLM برای تحلیل دقیق بلندخوانی
یک توسعهدهنده با استفاده از برچسبهای زمانی AmiVoice، اپلیکیشنی برای آموزش بلندخوانی زبان ژاپنی ساخته است که معیارهای سرعت و مکث را با دقت ریاضی محاسبه میکند. این سیستم با سپردن…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

یک توسعهدهنده با استفاده از برچسبهای زمانی AmiVoice، اپلیکیشنی برای آموزش بلندخوانی زبان ژاپنی ساخته است که معیارهای سرعت و مکث را با دقت ریاضی محاسبه میکند. این سیستم با سپردن…

اپلیکیشن VSCO با معرفی Studio Pro و اشتراک سالانه ۴۹۹ دلاری Studio One، وارد بازار عکاسی حرفهای شد. این ابزار اکنون امکان ویرایش همزمان ۱۰۰ عکس را با استفاده از هوش مصنوعی به…
پلتفرم PixExact با حذف محدودیتهای نسبت ابعاد، امکان تولید تصاویر با ابعاد پیکسلی دقیق تا ۴۰۹۶×۴۰۹۶ را فراهم کرد. این ابزار با ترکیب صحنه در ابعاد نهایی، نیاز به برش دستی و افت…

شرکت Midjourney با ورود به سختافزار پزشکی، اسکنری اولتراسونیک معرفی کرد که میتواند کل بدن را در ۶۰ ثانیه نقشهبرداری کند. این شرکت قصد دارد با راهاندازی «اسپاهای تشخیصی» در…
یک توسعهدهنده مستقل با ترکیب مدلهای چندوجهی Claude و ساختار Serverless، اپلیکیشنی ساخت که ثبت وعدههای غذایی را از طریق عکس و صدا جایگزین تایپ دستی میکند. این پروژه نشان میدهد…

شرکت Chivox با معرفی یک سرور MCP، تحلیل دقیق تلفظ در سطح «واج» یا کوچکترین واحد صوتی را به مدلهای زبانی آورد. این ابزار به جای تبدیل سادهی گفتار به متن، نمرات دقیقی از دقت،…

یک پل ارتباطی API جدید به توسعهدهندگان اجازه میدهد به جای پرداخت هزینههای سنگین سازمانی، با اشتراکهای مصرفکننده به مدلهای ویدیویی گوگل دسترسی یابند. این تغییر هزینه تولید…

OpenAI با معرفی محک LifeSciBench نشان داد که حتی پیشرفتهترین مدلهای تخصصی زیستشناسی در مواجهه با مسائل پیچیده پژوهشی ناتواناند. این دادهها حاکی از شکاف عمیق میان حفظ اطلاعات…

شرکت Midjourney با معرفی Midjourney Scanner از تولید تصویر فاصله گرفت تا دستگاهی برای تصویربرداری سلامت بدن بسازد. این شرکت قصد دارد تا سال ۲۰۲۷ مرکز تحقیقاتی ویژهای در…

شرکت iFLYTEK با معرفی Astron Skillhub و Astron Agent، مدیریت عاملهای هوش مصنوعی را از پرامپتهای یکپارچه به مهارتهای ماژولار و کنترلشده منتقل کرد. این چارچوب جدید لایههای…

شرکت MiniMax مدل M3 را با قابلیتهای کدنویسی پیشرفته و پنجره متنی یک میلیون توکنی بهصورت وزنهای باز منتشر کرد. این مدل با ادغام قابلیتهای چندوجهی و استدلال، رقابت مستقیمی با…

استارتاپ Odyssey با جذب ۳۱۰ میلیون دلار سرمایه در سری B، بر توسعه «مدلهای جهانی» برای شبیهسازی قوانین فیزیک تمرکز میکند. این دور سرمایهگذاری با حمایت انویدیا، ایامدی و…