گریس: انتخاب هوشمند زیرمجموعه داده برای آموزش کارآمد مدل‌های زبانی

مدل‌های زبانی بزرگ در سال‌های اخیر به موفقیت‌های چشمگیری در درک و تولید زبان طبیعی دست یافته‌اند. با این حال، تعداد پارامترهای عظیم و معماری ترانسفورمر این مدل‌ها، نیازهای محاسباتی بسیار سنگینی را در فرآیند آموزش ایجاد می‌کند. این منابع محاسباتی گسترده، بهینه‌سازی کارآمد را دشوار و پرهزینه ساخته است.

برای غلبه بر این چالش، پژوهشگران تکنیک‌های انتخاب کورست را توسعه داده‌اند که زیرمجموعه‌های کوچک و نماینده‌ای از داده‌های آموزشی را شناسایی می‌کنند. با آموزش بر روی این زیرمجموعه‌های بهینه‌شده به جای کل مجموعه داده، سیستم‌ها می‌توانند عملکرد خود را حفظ کرده و سربار محاسباتی را به‌طور قابل توجهی کاهش دهند.

با این حال، روش‌های موجود انتخاب کورست با ماهیت پویای فرآیندهای آموزش مدل‌های زبانی بزرگ دست و پنجه نرم می‌کنند. رویکردهای سنتی اغلب از معیارهای انتخاب ایستا استفاده می‌کنند که با تکامل مدل در مراحل مختلف آموزش، سازگار نمی‌شوند. همچنین، بسیاری از این روش‌ها در مقیاس‌پذیری برای مدل‌هایی با میلیاردها پارامتر ضعف دارند.

چارچوب پیشنهادی گریس، رویکردی نوآورانه و تطبیقی برای انتخاب کورست ارائه می‌دهد که به‌طور خاص برای مدل‌های زبانی بزرگ طراحی شده است. گریس تنوع نمایشی را با معیارهای اهمیت مبتنی بر گرادیان ترکیب می‌کند تا اطمینان حاصل شود که کورست‌ها در سراسر فرآیند آموزش، هم آموزنده و هم کارآمد باقی می‌مانند.

یکی از نوآوری‌های کلیدی این روش، بهره‌گیری از مکانیزم‌های انتشار مبتنی بر گراف k-NN برای کاهش هزینه‌های محاسباتی مرتبط با به‌روزرسانی‌های مکرر کورست است. گریس به جای محاسبه مجدد انتخاب‌ها از ابتدا، به‌صورت انتخابی نمرات و تعبیه‌ها را بر اساس پویایی در حال تحول آموزش به‌روزرسانی می‌کند.

نتایج تجربی در سه معیار محک نشان می‌دهد که گریس بهره‌وری آموزش و عملکرد وظایف پایین‌دستی را به‌طور قابل توجهی بهبود می‌بخشد. این چارچوب بهبودهای مداومی را در معماری‌های متنوع مدل‌های زبانی و حوزه‌های کاربردی مختلف نشان می‌دهد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گریس: انتخاب هوشمند زیرمجموعه داده برای آموزش کارآمد مدل‌های زبانی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گریس: انتخاب هوشمند زیرمجموعه داده برای آموزش کارآمد مدل‌های زبانی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گریس: انتخاب هوشمند زیرمجموعه داده برای آموزش کارآمد مدل‌های زبانی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گریس: انتخاب هوشمند زیرمجموعه داده برای آموزش کارآمد مدل‌های زبانی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران