موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

اجرای تبدیل گفتار به متن به صورت محلی روی کامپیوتر با Whisper بدون نیاز به اینترنت

پردازش محلی در برابر سرورهای ابری در تبدیل صوت به متن

ابزار متن‌باز Off Grid AI Desktop امکان اجرای مدل‌های Whisper را به‌صورت کاملاً محلی روی ویندوز و مک فراهم می‌کند. این نرم‌افزار با حذف نیاز به ارسال داده‌ها به ابر، ریسک‌های حریم…

۶ دقیقه خواندن

مدل ۳ میلیارد پارامتری OCR نامحدود بایدو با حافظه KV ثابت برای پردازش اسناد طولانی

تحلیل و بررسی تخصصی۳ روز پیش

توجه R-SWA در برابر استاندارد؛ پایان رشد خطی حافظه در OCR

بایدو مدل Unlimited OCR را معرفی کرد؛ یک مدل ۳ میلیارد پارامتری که با جایگزینی توجه استاندارد با R-SWA، مشکل افزایش حافظه در پردازش اسناد طولانی را حل کرده است. این مدل اجازه…

۵ دقیقه خواندن

Krea 2: مدل تصویری متن‌باز که به مرزهای علمی رسید

آموزش کاربردی۳ روز پیش

مدل Krea 2 فاصلهٔ کیفی با GPT Image 2 را به ۰.۱۴ امتیاز رساند

شرکت Krea مدل Krea 2 را با ۱۲.۹ میلیارد پارامتر منتشر کرد که از نظر کیفیت با مدل‌های بستهٔ پیشرو رقابت می‌کند. این عرضه شامل یک مدل پایه برای تنظیم دقیق و یک نسخه Turbo برای…

۳ دقیقه خواندن

چرا ترک بازی توکن‌هایم را نجات داد: ساخت آزمایشگاه هوش مصنوعی محلی خودم

آموزش کاربردی۳ روز پیش

استقرار qwen2.5-vl:7b در خانه؛ راهکار لوئیس برای حذف هزینه‌های تحلیل تصویر

یک توسعه‌دهنده برای فرار از هزینه‌های گزاف تحلیل بصری در ابر، یک آزمایشگاه محلی با مدل qwen2.5-vl:7b راه‌اندازی کرد. این سیستم با استفاده از سخت‌افزار گیمینگ، تحلیل رابط‌های…

۵ دقیقه خواندن

غیرفعال کردن استفاده گوگل از داده‌ها برای آموزش هوش مصنوعی

آموزش کاربردی۳ روز پیش

گوگل تاریخچه جست‌وجو و فایل‌های کاربران را به‌صورت پیش‌فرض برای آموزش AI ذخیره

گوگل تنظیمات جدیدی را فعال کرده است که تاریخچه جست‌وجو و رسانه‌های آپلودشده توسط کاربران را به‌طور خودکار برای آموزش مدل‌های هوش مصنوعی خود به کار می‌گیرد. کاربران برای جلوگیری از…

۵ دقیقه خواندن

معرفی مدل‌های ترجمه گفتار لحظه‌ای Gradium با دقت و سرعت بالاتر از رقبا

تحلیل و بررسی تخصصی۳ روز پیش

Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

شرکت Gradium با معرفی معماری دو-مدلی stt-translate و s2s-translate، تأخیر در ترجمهٔ هم‌زمان گفتار را به ۳ ثانیه کاهش داد. این سامانه با عبور از مدل‌های سنتی متنی، دقت و سرعت…

۶ دقیقه خواندن

چارچوب عامل هوشمند که همه چیز را درباره کنترل سخت‌افزار زیر و رو کرد (بخش ۱)

آموزش کاربردی۳ روز پیش

«کنترل ربات با زبان طبیعی»؛ هدف جدید چارچوب Strands Labs

آمازون با معرفی Strands Labs، امکان کنترل سخت‌افزارهای رباتیک را از طریق دستورات ساده‌ی متنی به‌جای توابع ریاضی پیچیده فراهم کرد. این چارچوب ترکیبی از مدل‌های VLA در لبه برای…

۸ دقیقه خواندن

معرفی جدول رتبه‌بندی FFASR: سنجش بازشناسی گفتار در دنیای واقعی

آموزش کاربردی۴ روز پیش

«نقطه ضعف مدل‌های گفتاری»؛ نخستین محک باز برای محیط‌های Far-field

پلتفرم‌های Treble Technologies و Hugging Face نخستین محک باز برای بازشناسی گفتار در میدان‌های دور (Far-field ASR) را معرفی کردند. این داده‌ها نشان می‌دهد مدل‌هایی که در محیط‌های…

۷ دقیقه خواندن

اسپیکر گوگل هوم صدای خوبی دارد و ظاهر زیبایی دارد، اما گاهی اوقات حساس و دمدمی‌مزاج است.

زندگی با AI۴ روز پیش

آیا Gemini می‌تواند جایگزین کنترل‌های فیزیکی در اسپیکر جدید گوگل شود؟

گوگل پس از ۶ سال با معرفی اسپیکر هوشمند جدید، دستیار Gemini را در قالب سخت‌افزاری ۹۹ دلاری به خانه‌ها می‌آورد. این دستگاه کیفیت صدای برتری دارد اما طراحی مینیمال کنترل‌های فیزیکی…

۴ دقیقه خواندن

لوگوی چارچوب های‌استک با نماد کوهان شتر و عنوان "Haystack | Haystack"

آموزش کاربردی۴ روز پیش

Haystack با معماری خط‌لوله‌ای، توسعهٔ عامل‌های هوش مصنوعی را سیستمی کرد

فریم‌ورک Haystack با معرفی ساختارهای ماژولار، امکان ساخت عامل‌های هوشمند و سیستم‌های RAG پیچیده را فراهم می‌کند. تمرکز این پلتفرم بر استانداردسازی فراخوانی ابزارها و مهندسی…

۱ دقیقه خواندن

تحلیل‌های ویس‌بات هوش مصنوعی: بینش‌هایی از گفتگوهای مشتریان

آموزش کاربردی۴ روز پیش

تبدیل تماس‌های مشتریان به داده‌های استراتژیک با تحلیل‌های صوتی هوش مصنوعی

شرکت‌ها از اتوماسیون ساده‌ی پاسخگویی به سمت تحلیل‌های عمیق گفت‌وگو حرکت می‌کنند. استخراج قصد و احساسات از هزاران تماس، شناسایی نقاط ضعف محصول و ریسک ریزش مشتریان را در لحظه ممکن…

۶ دقیقه خواندن

مدل OCR جدید Mistral در ۷۲ درصد تست‌های کور از رقبا پیشی گرفت

اخبار کوتاه روزانه۴ روز پیش

OCR 4 در برابر رقبای تجاری؛ برتری در درک ساختار اسناد

شرکت Mistral AI مدل OCR 4 را برای درک ساختار اسناد معرفی کرد که در تست‌های کور، در ۷۲٪ موارد ترجیح داوران را به دست آورده است. این ابزار با ارائه امتیاز اطمینان برای هر کلمه، دقت…

۱ دقیقه خواندن