تیمی پژوهشی روش Vec-LUT را معرفی کرده است؛ رویکردی مبتنی بر جدول جستجوی برداری که برای غلبه بر گلوگاههای بحرانی پهنای باند حافظه در استنتاج مدلهای زبانی بزرگ با کوانتیزاسیون فوقالعاده کم در دستگاههای لبه طراحی شده است. این پژوهش که در arxiv.org منتشر شده، محدودیتی بنیادین در سیستمهای استنتاج مبتنی بر جدول جستجوی سنتی را هدف قرار میدهد که پیشتر بهرهوری پردازش موازی را محدود کرده بود.
مدلهای زبانی بزرگ به طور فزایندهای در دستگاههای لبه از جمله گوشیهای هوشمند، سنسورهای اینترنت اشیا و سیستمهای تعبیهشده مستقر میشوند. با حرکت از کوانتیزاسیون ۸ بیتی به ۴ بیت، ۲ بیت و اکنون ۱.۵۸ بیتی، استنتاج مبتنی بر جدول جستجو روی پردازندههای استاندارد توانایی رقابت با واحدهای پردازش عصبی را برای مدلهای فوقالعاده کمبیت نشان داده است. با این حال، الگوی جدول جستجوی عددی سنتی دسترسیهای تکراری و ناپیوسته به حافظه را برای هر نشانه انجام میدهد که منجر به استفاده بسیار ناکارآمد از پهنای باند موجود در سناریوهای استنتاج موازی میشود.
{{img:0}}
رویکرد Vec-LUT فرآیند جستجو را از بنیان بازآفرینی میکند. این روش با ساختن یک جدول جستجوی واحد برای نشانههای موازی و انجام یک جستجوی ۱←ن در هر شاخص، عمل میکند. پژوهشگران همچنین از دو تکنیک مکمل برای افزایش بیشتر عملکرد بهره بردهاند: چیدمان تانسوری متمرکز بر جدول جستجوی برداری که سازماندهی دادهها را برای عملیات برداری بهینه میکند، و جستجوی جریانی آگاه از حافظه پنهان که الگوهای دسترسی به حافظه را برای بهرهبرداری حداکثری از حافظه پنهان بهبود میدهد.
ارزیابیهای انجامشده روی پنج دستگاه لبه با سه مدل زبانی مختلف نشان میدهد که Vec-LUT تا ۴.۲ برابر از روشهای پیشرفته فعلی بهتر عمل میکند. پیادهسازی این روش در مخزن پروژه ادغام شده و کد آن به صورت عمومی در دسترس است تا توسعهدهندگان بتوانند نتایج را بازتولید و بر آن بنا بگذارند.
این توسعه پیامدهای مهمی برای استقرار هوش مصنوعی در دستگاههای محلی دارد. وظایفی که به استنتاج موازی نیاز دارند، از جمله فاز پیشپر کردن، تکنیکهای مقیاسگذاری زمان آزمایش و سناریوهای تولید چند نشانهای، اکنون میتوانند بدون نیاز به سختافزار تخصصی به عملکرد بسیار بهتری دست یابند. این رویکرد سیستمهای مبتنی بر پردازنده استاندارد را قادر میسازد تا بارهای کاری پیچیده مدلهای زبانی را کارآمدتر مدیریت کنند و به طور بالقوه محدوده دستگاههایی که توانایی اجرای محلی مدلهای زبانی پیشرفته را دارند، گسترش میدهد.
این پژوهش رویکردی نظاممند برای پر کردن شکاف بین تکنیکهای کوانتیزاسیون با بیت فوقالعاده کم و عملکرد استنتاج عملی در سختافزار با منابع محدود ارائه میدهد. با بالغ شدن هوش مصنوعی لبه، بهینهسازیهای سطح الگوریتمی مانند Vec-LUT ممکن است برای دستیابی به تجربههای کاربری پاسخگو و کمتأخیر در دستگاههای روزمره ضروری باشند.

گفتگو