پرش به محتوای اصلی
بازگشت به واژه‌نامه

واژه‌نامهٔ هوش مصنوعی

بهینه‌سازی مستقیم ترجیح (DPO) چیست؟

dpo

روشی برای همسوسازی مدل که آن را مستقیماً از جفت پاسخ‌های ترجیح‌داده‌شده و رد‌شده آموزش می‌دهد، بدون نیاز به مدل پاداش جداگانه.

واژه‌های دیگر

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.