
پردازش محلی در برابر سرورهای ابری در تبدیل صوت به متن
ابزار متنباز Off Grid AI Desktop امکان اجرای مدلهای Whisper را بهصورت کاملاً محلی روی ویندوز و مک فراهم میکند. این نرمافزار با حذف نیاز به ارسال دادهها به ابر، ریسکهای حریم…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

ابزار متنباز Off Grid AI Desktop امکان اجرای مدلهای Whisper را بهصورت کاملاً محلی روی ویندوز و مک فراهم میکند. این نرمافزار با حذف نیاز به ارسال دادهها به ابر، ریسکهای حریم…

بایدو مدل Unlimited OCR را معرفی کرد؛ یک مدل ۳ میلیارد پارامتری که با جایگزینی توجه استاندارد با R-SWA، مشکل افزایش حافظه در پردازش اسناد طولانی را حل کرده است. این مدل اجازه…

شرکت Krea مدل Krea 2 را با ۱۲.۹ میلیارد پارامتر منتشر کرد که از نظر کیفیت با مدلهای بستهٔ پیشرو رقابت میکند. این عرضه شامل یک مدل پایه برای تنظیم دقیق و یک نسخه Turbo برای…

یک توسعهدهنده برای فرار از هزینههای گزاف تحلیل بصری در ابر، یک آزمایشگاه محلی با مدل qwen2.5-vl:7b راهاندازی کرد. این سیستم با استفاده از سختافزار گیمینگ، تحلیل رابطهای…

گوگل تنظیمات جدیدی را فعال کرده است که تاریخچه جستوجو و رسانههای آپلودشده توسط کاربران را بهطور خودکار برای آموزش مدلهای هوش مصنوعی خود به کار میگیرد. کاربران برای جلوگیری از…

شرکت Gradium با معرفی معماری دو-مدلی stt-translate و s2s-translate، تأخیر در ترجمهٔ همزمان گفتار را به ۳ ثانیه کاهش داد. این سامانه با عبور از مدلهای سنتی متنی، دقت و سرعت…

آمازون با معرفی Strands Labs، امکان کنترل سختافزارهای رباتیک را از طریق دستورات سادهی متنی بهجای توابع ریاضی پیچیده فراهم کرد. این چارچوب ترکیبی از مدلهای VLA در لبه برای…

پلتفرمهای Treble Technologies و Hugging Face نخستین محک باز برای بازشناسی گفتار در میدانهای دور (Far-field ASR) را معرفی کردند. این دادهها نشان میدهد مدلهایی که در محیطهای…

گوگل پس از ۶ سال با معرفی اسپیکر هوشمند جدید، دستیار Gemini را در قالب سختافزاری ۹۹ دلاری به خانهها میآورد. این دستگاه کیفیت صدای برتری دارد اما طراحی مینیمال کنترلهای فیزیکی…

فریمورک Haystack با معرفی ساختارهای ماژولار، امکان ساخت عاملهای هوشمند و سیستمهای RAG پیچیده را فراهم میکند. تمرکز این پلتفرم بر استانداردسازی فراخوانی ابزارها و مهندسی…

شرکتها از اتوماسیون سادهی پاسخگویی به سمت تحلیلهای عمیق گفتوگو حرکت میکنند. استخراج قصد و احساسات از هزاران تماس، شناسایی نقاط ضعف محصول و ریسک ریزش مشتریان را در لحظه ممکن…

شرکت Mistral AI مدل OCR 4 را برای درک ساختار اسناد معرفی کرد که در تستهای کور، در ۷۲٪ موارد ترجیح داوران را به دست آورده است. این ابزار با ارائه امتیاز اطمینان برای هر کلمه، دقت…