واژهنامهٔ هوش مصنوعی
بهینهسازی مستقیم ترجیح (DPO) چیست؟
روشی برای همسوسازی مدل که آن را مستقیماً از جفت پاسخهای ترجیحدادهشده و ردشده آموزش میدهد، بدون نیاز به مدل پاداش جداگانه.
واژههای دیگر
دراپاوتdropout
روشی برای منظمسازی که در هر گام آموزش بخشی از نورونها را بهطور تصادفی غیرفعال میکند تا مدل به ویژگیهای خاص بیشازحد وابسته نشود.
توقف زودهنگامearly stopping
متوقفکردن آموزش بهمحض آنکه کارایی مدل روی دادهٔ اعتبارسنجی رو به افول میگذارد، تا از بیشبرازش جلوگیری شود.
رایانش لبهedge computing
پردازش داده در نزدیکیِ منبع آن، بهجای مراکز دادهٔ متمرکز.
بردار معناییembedding
نمایش داده بهصورت یک بردار عددیِ فشرده که معنای آن را در خود نگه میدارد.
[Epoch]epoch
یک بار کامل عبور الگوریتم از کل مجموعهداده آموزشی برای یادگیری، که در هر epoch وزنهای مدل بهروزرسانی میشوند.
تطابق دقیقexact match
معیاری سختگیرانه که پاسخ مدل را تنها در صورتی درست میشمارد که کلمهبهکلمه با پاسخ مرجع یکی باشد.
همهٔ اصطلاحات را در واژهنامهٔ هوش مصنوعی ببینید، یا کار با هوش مصنوعی را در آموزش از پایه یاد بگیرید.