مدلهای زبانی بزرگ در سالهای اخیر به موفقیتهای چشمگیری در درک و تولید زبان طبیعی دست یافتهاند. با این حال، تعداد پارامترهای عظیم و معماری ترانسفورمر این مدلها، نیازهای محاسباتی بسیار سنگینی را در فرآیند آموزش ایجاد میکند. این منابع محاسباتی گسترده، بهینهسازی کارآمد را دشوار و پرهزینه ساخته است.
برای غلبه بر این چالش، پژوهشگران تکنیکهای انتخاب کورست را توسعه دادهاند که زیرمجموعههای کوچک و نمایندهای از دادههای آموزشی را شناسایی میکنند. با آموزش بر روی این زیرمجموعههای بهینهشده به جای کل مجموعه داده، سیستمها میتوانند عملکرد خود را حفظ کرده و سربار محاسباتی را بهطور قابل توجهی کاهش دهند.
با این حال، روشهای موجود انتخاب کورست با ماهیت پویای فرآیندهای آموزش مدلهای زبانی بزرگ دست و پنجه نرم میکنند. رویکردهای سنتی اغلب از معیارهای انتخاب ایستا استفاده میکنند که با تکامل مدل در مراحل مختلف آموزش، سازگار نمیشوند. همچنین، بسیاری از این روشها در مقیاسپذیری برای مدلهایی با میلیاردها پارامتر ضعف دارند.
چارچوب پیشنهادی گریس، رویکردی نوآورانه و تطبیقی برای انتخاب کورست ارائه میدهد که بهطور خاص برای مدلهای زبانی بزرگ طراحی شده است. گریس تنوع نمایشی را با معیارهای اهمیت مبتنی بر گرادیان ترکیب میکند تا اطمینان حاصل شود که کورستها در سراسر فرآیند آموزش، هم آموزنده و هم کارآمد باقی میمانند.
یکی از نوآوریهای کلیدی این روش، بهرهگیری از مکانیزمهای انتشار مبتنی بر گراف k-NN برای کاهش هزینههای محاسباتی مرتبط با بهروزرسانیهای مکرر کورست است. گریس به جای محاسبه مجدد انتخابها از ابتدا، بهصورت انتخابی نمرات و تعبیهها را بر اساس پویایی در حال تحول آموزش بهروزرسانی میکند.
نتایج تجربی در سه معیار محک نشان میدهد که گریس بهرهوری آموزش و عملکرد وظایف پاییندستی را بهطور قابل توجهی بهبود میبخشد. این چارچوب بهبودهای مداومی را در معماریهای متنوع مدلهای زبانی و حوزههای کاربردی مختلف نشان میدهد.

گفتگو