واژهنامهٔ هوش مصنوعی
سوءاستفاده از پاداش چیست؟
زمانی که مدل راهی برای بیشینهکردن امتیاز پاداش مییابد که هدف واقعی طراح را برآورده نمیکند، مثل ظاهرفریبی بهجای پاسخ درست.
معادل انگلیسی
reward hacking
تعریف مرجع (انگلیسی)
Auto-flagged during WF-7 localization
واژههای دیگر
مدل پاداشreward model
مدلی که آموزش دیده تا کیفیت پاسخهای یک مدل دیگر را بر اساس ترجیحات انسانی امتیازدهی کند و این امتیاز راهنمای آموزش بعدی شود.
یادگیری تقویتی با بازخورد هوش مصنوعی (RLAIF)rlaif
روشی که بهجای داوران انسانی، از یک مدل هوش مصنوعی برای امتیازدهی به پاسخها استفاده میکند تا فرایند همسوسازی ارزانتر و مقیاسپذیرتر شود.
[RLHF]rlhf
روش یادگیری تقویتی با بازخورد انسانی (RLHF): آموزش مدلهای زبانی که در آن پاداشها از قضاوتهای مستقیم انسان بهجای قوانین از پیش تعریفشده مشتق میشوند.
منحنی ROCroc curve
نموداری که برای یک دستهبند، نرخ مثبت درست را در برابر نرخ مثبت کاذب در آستانههای تصمیمگیری گوناگون نشان میدهد.
معیار ROUGErouge
مجموعهای از معیارها برای ارزیابی خلاصهسازی متن که میزان همپوشانی خلاصه تولیدشده را با خلاصه مرجع انسانی اندازه میگیرد.
قوانین مقیاسپذیریscaling laws
روابط تجربی میان اندازهٔ مدل، حجم داده، محاسبات و کاراییِ نهایی.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.