واژهنامهٔ هوش مصنوعی
مدل بینایی-زبانی چیست؟
مدلی که تصویر و متن را همزمان پردازش میکند تا بتواند دربارهٔ محتوای تصویری استدلال کند و به زبان طبیعی دربارهٔ آن پاسخ دهد.
واژههای دیگر
پرسشوپاسخ تصویریvisual question answering (vqa)
وظیفهای که در آن مدل هوش مصنوعی به پرسشهای زبان طبیعی دربارهٔ محتوای یک تصویر پاسخ میدهد.
vLLMvllm
یک موتور متنباز برای اجرای پرسرعت مدلهای زبانی که با مدیریت بهینهٔ حافظه، خدمترسانی همزمان به چندین درخواست را ممکن میکند.
وکودر (مبدل صوت)vocoder
جزئی که نمایش فشردهٔ صوت را به موج صوتیِ شنیدنی تبدیل میکند و در گام پایانیِ تولید گفتار مصنوعی به کار میرود.
شبیهسازی صداvoice cloning
ساخت نسخهای مصنوعی از صدای یک فرد مشخص از روی نمونههای ضبطشده، بهگونهای که بتواند هر متنی را با همان صدا بگوید.
حافظهٔ ویدیویی (VRAM)vram
حافظهٔ پرسرعت روی کارت گرافیک که وزنهای مدل و دادههای میانی را نگه میدارد و ظرفیت آن تعیین میکند چه اندازه مدلی روی آن کارت جا میشود.
نشانگذاری (واترمارک)watermarking
جاسازی یک نشانهٔ پنهان و قابلتشخیص در متن یا تصویرِ تولیدشده با هوش مصنوعی تا منشأ ماشینی آن بعداً قابل اثبات باشد.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.