واژهنامهٔ هوش مصنوعی
[RLHF] چیست؟
روش یادگیری تقویتی با بازخورد انسانی (RLHF): آموزش مدلهای زبانی که در آن پاداشها از قضاوتهای مستقیم انسان بهجای قوانین از پیش تعریفشده مشتق میشوند.
معادل انگلیسی
rlhf
تعریف مرجع (انگلیسی)
Auto-flagged during WF-7 localization
واژههای دیگر
منحنی ROCroc curve
نموداری که برای یک دستهبند، نرخ مثبت درست را در برابر نرخ مثبت کاذب در آستانههای تصمیمگیری گوناگون نشان میدهد.
معیار ROUGErouge
مجموعهای از معیارها برای ارزیابی خلاصهسازی متن که میزان همپوشانی خلاصه تولیدشده را با خلاصه مرجع انسانی اندازه میگیرد.
قوانین مقیاسپذیریscaling laws
روابط تجربی میان اندازهٔ مدل، حجم داده، محاسبات و کاراییِ نهایی.
بذر (مقدار تصادفی اولیه)seed
عدد آغازینی که تصادف یک مدل مولد را تعیین میکند؛ بذرِ یکسان با ورودیِ یکسان همواره همان خروجی را بازمیسازد.
خودتوجهیself-attention
گونهای از توجه که در آن هر واژهٔ یک دنباله با همهٔ واژههای همان دنباله سنجیده میشود تا وابستگیهای درونمتنی استخراج شود.
میزبانی شخصیself-hosting
اجرای یک مدل یا سرویس هوش مصنوعی روی سرور یا سختافزار خودِ کاربر، بهجای اتکا به سرویس ابریِ یک شرکت بیرونی.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.