پرش به محتوای اصلی
بازگشت به واژه‌نامه

واژه‌نامهٔ هوش مصنوعی

بهینه‌سازی سیاست تقریبی (PPO) چیست؟

ppo

الگوریتمی در یادگیری تقویتی که سیاست مدل را گام‌به‌گام و محتاطانه به‌روز می‌کند تا تغییرات بزرگ و بی‌ثبات‌کننده رخ ندهد.

واژه‌های دیگر

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.