واژهنامهٔ هوش مصنوعی
بهینهسازی سیاست تقریبی (PPO) چیست؟
الگوریتمی در یادگیری تقویتی که سیاست مدل را گامبهگام و محتاطانه بهروز میکند تا تغییرات بزرگ و بیثباتکننده رخ ندهد.
واژههای دیگر
[Precision]precision
میزان درستی پیشبینیهای مثبت یک مدل؛ یعنی نسبت موارد واقعاً مثبت به مجموع موارد پیشبینیشده بهعنوان مثبت (precision).
دادهٔ ترجیحیpreference data
دادهای که در آن برای هر ورودی چند پاسخ مقایسه و مشخص شده کدام بهتر است، تا مدل را بهسوی پاسخهای مطلوب انسان سوق دهد.
پیشپُرکردنprefill
مرحلهٔ نخستِ تولید پاسخ در مدلهای زبانی که در آن کل پرامپت ورودی یکجا پردازش میشود تا تولید توکنهای بعدی آغاز شود.
پیشآموزشpretraining
مرحلهٔ نخست آموزش مدل زبانی روی حجم عظیمی از متن عمومی، که در آن مدل ساختار و دانش کلی زبان را پیش از هرگونه تخصصیسازی فرامیگیرد.
مهندسی پرامپتprompt engineering
طراحی و بهینهسازیِ ورودیهای مدلهای هوش مصنوعی برای رسیدن به خروجیِ دلخواه.
تزریق پرامپتprompt injection
حملهای که در آن دستورهای پنهان در ورودی یا دادههای بیرونی، مدل زبانی را وادار میکند از دستورهای اصلیِ سازنده سرپیچی کند.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.