واژهنامهٔ هوش مصنوعی
یادگیری تقویتی با بازخورد هوش مصنوعی (RLAIF) چیست؟
روشی که بهجای داوران انسانی، از یک مدل هوش مصنوعی برای امتیازدهی به پاسخها استفاده میکند تا فرایند همسوسازی ارزانتر و مقیاسپذیرتر شود.
واژههای دیگر
[RLHF]rlhf
روش یادگیری تقویتی با بازخورد انسانی (RLHF): آموزش مدلهای زبانی که در آن پاداشها از قضاوتهای مستقیم انسان بهجای قوانین از پیش تعریفشده مشتق میشوند.
منحنی ROCroc curve
نموداری که برای یک دستهبند، نرخ مثبت درست را در برابر نرخ مثبت کاذب در آستانههای تصمیمگیری گوناگون نشان میدهد.
معیار ROUGErouge
مجموعهای از معیارها برای ارزیابی خلاصهسازی متن که میزان همپوشانی خلاصه تولیدشده را با خلاصه مرجع انسانی اندازه میگیرد.
قوانین مقیاسپذیریscaling laws
روابط تجربی میان اندازهٔ مدل، حجم داده، محاسبات و کاراییِ نهایی.
بذر (مقدار تصادفی اولیه)seed
عدد آغازینی که تصادف یک مدل مولد را تعیین میکند؛ بذرِ یکسان با ورودیِ یکسان همواره همان خروجی را بازمیسازد.
خودتوجهیself-attention
گونهای از توجه که در آن هر واژهٔ یک دنباله با همهٔ واژههای همان دنباله سنجیده میشود تا وابستگیهای درونمتنی استخراج شود.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.