واژه‌نامهٔ هوش مصنوعی

بهینه‌سازی سیاست تقریبی (PPO) چیست؟

ppo

الگوریتمی در یادگیری تقویتی که سیاست مدل را گام‌به‌گام و محتاطانه به‌روز می‌کند تا تغییرات بزرگ و بی‌ثبات‌کننده رخ ندهد.

واژه‌های دیگر

میزان درستی پیش‌بینی‌های مثبت یک مدل؛ یعنی نسبت موارد واقعاً مثبت به مجموع موارد پیش‌بینی‌شده به‌عنوان مثبت (precision).

داده‌ای که در آن برای هر ورودی چند پاسخ مقایسه و مشخص شده کدام بهتر است، تا مدل را به‌سوی پاسخ‌های مطلوب انسان سوق دهد.

مرحلهٔ نخستِ تولید پاسخ در مدل‌های زبانی که در آن کل پرامپت ورودی یک‌جا پردازش می‌شود تا تولید توکن‌های بعدی آغاز شود.

مرحلهٔ نخست آموزش مدل زبانی روی حجم عظیمی از متن عمومی، که در آن مدل ساختار و دانش کلی زبان را پیش از هرگونه تخصصی‌سازی فرامی‌گیرد.

طراحی و بهینه‌سازیِ ورودی‌های مدل‌های هوش مصنوعی برای رسیدن به خروجیِ دلخواه.

حمله‌ای که در آن دستورهای پنهان در ورودی یا داده‌های بیرونی، مدل زبانی را وادار می‌کند از دستورهای اصلیِ سازنده سرپیچی کند.

همهٔ اصطلاحات را در واژه‌نامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.