واژه‌نامهٔ هوش مصنوعی

بهینه‌سازی مستقیم ترجیح (DPO) چیست؟

dpo

روشی برای همسوسازی مدل که آن را مستقیماً از جفت پاسخ‌های ترجیح‌داده‌شده و رد‌شده آموزش می‌دهد، بدون نیاز به مدل پاداش جداگانه.

واژه‌های دیگر

روشی برای منظم‌سازی که در هر گام آموزش بخشی از نورون‌ها را به‌طور تصادفی غیرفعال می‌کند تا مدل به ویژگی‌های خاص بیش‌ازحد وابسته نشود.

متوقف‌کردن آموزش به‌محض آنکه کارایی مدل روی دادهٔ اعتبارسنجی رو به افول می‌گذارد، تا از بیش‌برازش جلوگیری شود.

پردازش داده در نزدیکیِ منبع آن، به‌جای مراکز دادهٔ متمرکز.

نمایش داده به‌صورت یک بردار عددیِ فشرده که معنای آن را در خود نگه می‌دارد.

یک بار کامل عبور الگوریتم از کل مجموعه‌داده آموزشی برای یادگیری، که در هر epoch وزن‌های مدل به‌روزرسانی می‌شوند.

معیاری سختگیرانه که پاسخ مدل را تنها در صورتی درست می‌شمارد که کلمه‌به‌کلمه با پاسخ مرجع یکی باشد.

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.