واژهنامهٔ هوش مصنوعی
جریمهٔ تکرار چیست؟
پارامتری در تولید متن که احتمال توکنهای پیشتر تولیدشده را کاهش میدهد تا مدل از تکرار بیشازحدِ واژهها و عبارتها بپرهیزد.
واژههای دیگر
بازرتبهبندیreranking
مرحلهای که در آن نتایج بازیابیشده با مدلی دقیقتر دوباره امتیازدهی و مرتب میشوند تا مرتبطترین آنها به بالای فهرست بیایند.
بازیابیretrieval
یافتن و بیرونکشیدن قطعههای مرتبطِ اطلاعات از یک مجموعهٔ بزرگ داده در پاسخ به یک پرسش.
تولید بازیابیافزاretrieval-augmented generation (RAG)
مبنیسازیِ پاسخهای مدل زبانی با بازیابیِ اسناد مرتبط از یک پایگاه دانش، پیش از تولید پاسخ.
سوءاستفاده از پاداشreward hacking
زمانی که مدل راهی برای بیشینهکردن امتیاز پاداش مییابد که هدف واقعی طراح را برآورده نمیکند، مثل ظاهرفریبی بهجای پاسخ درست.
مدل پاداشreward model
مدلی که آموزش دیده تا کیفیت پاسخهای یک مدل دیگر را بر اساس ترجیحات انسانی امتیازدهی کند و این امتیاز راهنمای آموزش بعدی شود.
یادگیری تقویتی با بازخورد هوش مصنوعی (RLAIF)rlaif
روشی که بهجای داوران انسانی، از یک مدل هوش مصنوعی برای امتیازدهی به پاسخها استفاده میکند تا فرایند همسوسازی ارزانتر و مقیاسپذیرتر شود.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.