واژه‌نامهٔ هوش مصنوعی

مدل بینایی-زبانی چیست؟

vision-language model (vlm)

مدلی که تصویر و متن را هم‌زمان پردازش می‌کند تا بتواند دربارهٔ محتوای تصویری استدلال کند و به زبان طبیعی دربارهٔ آن پاسخ دهد.

واژه‌های دیگر

وظیفه‌ای که در آن مدل هوش مصنوعی به پرسش‌های زبان طبیعی دربارهٔ محتوای یک تصویر پاسخ می‌دهد.

یک موتور متن‌باز برای اجرای پرسرعت مدل‌های زبانی که با مدیریت بهینهٔ حافظه، خدمت‌رسانی هم‌زمان به چندین درخواست را ممکن می‌کند.

جزئی که نمایش فشردهٔ صوت را به موج صوتیِ شنیدنی تبدیل می‌کند و در گام پایانیِ تولید گفتار مصنوعی به کار می‌رود.

ساخت نسخه‌ای مصنوعی از صدای یک فرد مشخص از روی نمونه‌های ضبط‌شده، به‌گونه‌ای که بتواند هر متنی را با همان صدا بگوید.

حافظهٔ پرسرعت روی کارت گرافیک که وزن‌های مدل و داده‌های میانی را نگه می‌دارد و ظرفیت آن تعیین می‌کند چه اندازه مدلی روی آن کارت جا می‌شود.

جاسازی یک نشانهٔ پنهان و قابل‌تشخیص در متن یا تصویرِ تولیدشده با هوش مصنوعی تا منشأ ماشینی آن بعداً قابل اثبات باشد.

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.