پرش به محتوای اصلی
بازگشت به واژه‌نامه

واژه‌نامهٔ هوش مصنوعی

مدل بینایی-زبانی چیست؟

vision-language model (vlm)

مدلی که تصویر و متن را هم‌زمان پردازش می‌کند تا بتواند دربارهٔ محتوای تصویری استدلال کند و به زبان طبیعی دربارهٔ آن پاسخ دهد.

واژه‌های دیگر

پرسش‌وپاسخ تصویریvisual question answering (vqa)

وظیفه‌ای که در آن مدل هوش مصنوعی به پرسش‌های زبان طبیعی دربارهٔ محتوای یک تصویر پاسخ می‌دهد.

vLLMvllm

یک موتور متن‌باز برای اجرای پرسرعت مدل‌های زبانی که با مدیریت بهینهٔ حافظه، خدمت‌رسانی هم‌زمان به چندین درخواست را ممکن می‌کند.

وکودر (مبدل صوت)vocoder

جزئی که نمایش فشردهٔ صوت را به موج صوتیِ شنیدنی تبدیل می‌کند و در گام پایانیِ تولید گفتار مصنوعی به کار می‌رود.

شبیه‌سازی صداvoice cloning

ساخت نسخه‌ای مصنوعی از صدای یک فرد مشخص از روی نمونه‌های ضبط‌شده، به‌گونه‌ای که بتواند هر متنی را با همان صدا بگوید.

حافظهٔ ویدیویی (VRAM)vram

حافظهٔ پرسرعت روی کارت گرافیک که وزن‌های مدل و داده‌های میانی را نگه می‌دارد و ظرفیت آن تعیین می‌کند چه اندازه مدلی روی آن کارت جا می‌شود.

نشان‌گذاری (واترمارک)watermarking

جاسازی یک نشانهٔ پنهان و قابل‌تشخیص در متن یا تصویرِ تولیدشده با هوش مصنوعی تا منشأ ماشینی آن بعداً قابل اثبات باشد.

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.