Vec-LUT: رویکردی نوین با شتاب ۴.۲ برابری برای استنتاج LLM در لبه

تیمی پژوهشی روش Vec-LUT را معرفی کرده است؛ رویکردی مبتنی بر جدول جستجوی برداری که برای غلبه بر گلوگاه‌های بحرانی پهنای باند حافظه در استنتاج مدل‌های زبانی بزرگ با کوانتیزاسیون فوق‌العاده کم در دستگاه‌های لبه طراحی شده است. این پژوهش که در arxiv.org منتشر شده، محدودیتی بنیادین در سیستم‌های استنتاج مبتنی بر جدول جستجوی سنتی را هدف قرار می‌دهد که پیش‌تر بهره‌وری پردازش موازی را محدود کرده بود.

مدل‌های زبانی بزرگ به طور فزاینده‌ای در دستگاه‌های لبه از جمله گوشی‌های هوشمند، سنسورهای اینترنت اشیا و سیستم‌های تعبیه‌شده مستقر می‌شوند. با حرکت از کوانتیزاسیون ۸ بیتی به ۴ بیت، ۲ بیت و اکنون ۱.۵۸ بیتی، استنتاج مبتنی بر جدول جستجو روی پردازنده‌های استاندارد توانایی رقابت با واحدهای پردازش عصبی را برای مدل‌های فوق‌العاده کم‌بیت نشان داده است. با این حال، الگوی جدول جستجوی عددی سنتی دسترسی‌های تکراری و ناپیوسته به حافظه را برای هر نشانه انجام می‌دهد که منجر به استفاده بسیار ناکارآمد از پهنای باند موجود در سناریوهای استنتاج موازی می‌شود.

رویکرد Vec-LUT فرآیند جستجو را از بنیان بازآفرینی می‌کند. این روش با ساختن یک جدول جستجوی واحد برای نشانه‌های موازی و انجام یک جستجوی ۱←ن در هر شاخص، عمل می‌کند. پژوهشگران همچنین از دو تکنیک مکمل برای افزایش بیشتر عملکرد بهره برده‌اند: چیدمان تانسوری متمرکز بر جدول جستجوی برداری که سازماندهی داده‌ها را برای عملیات برداری بهینه می‌کند، و جستجوی جریانی آگاه از حافظه پنهان که الگوهای دسترسی به حافظه را برای بهره‌برداری حداکثری از حافظه پنهان بهبود می‌دهد.

ارزیابی‌های انجام‌شده روی پنج دستگاه لبه با سه مدل زبانی مختلف نشان می‌دهد که Vec-LUT تا ۴.۲ برابر از روش‌های پیشرفته فعلی بهتر عمل می‌کند. پیاده‌سازی این روش در مخزن پروژه ادغام شده و کد آن به صورت عمومی در دسترس است تا توسعه‌دهندگان بتوانند نتایج را بازتولید و بر آن بنا بگذارند.

این توسعه پیامدهای مهمی برای استقرار هوش مصنوعی در دستگاه‌های محلی دارد. وظایفی که به استنتاج موازی نیاز دارند، از جمله فاز پیش‌پر کردن، تکنیک‌های مقیاس‌گذاری زمان آزمایش و سناریوهای تولید چند نشانه‌ای، اکنون می‌توانند بدون نیاز به سخت‌افزار تخصصی به عملکرد بسیار بهتری دست یابند. این رویکرد سیستم‌های مبتنی بر پردازنده استاندارد را قادر می‌سازد تا بارهای کاری پیچیده مدل‌های زبانی را کارآمدتر مدیریت کنند و به طور بالقوه محدوده دستگاه‌هایی که توانایی اجرای محلی مدل‌های زبانی پیشرفته را دارند، گسترش می‌دهد.

این پژوهش رویکردی نظام‌مند برای پر کردن شکاف بین تکنیک‌های کوانتیزاسیون با بیت فوق‌العاده کم و عملکرد استنتاج عملی در سخت‌افزار با منابع محدود ارائه می‌دهد. با بالغ شدن هوش مصنوعی لبه، بهینه‌سازی‌های سطح الگوریتمی مانند Vec-LUT ممکن است برای دستیابی به تجربه‌های کاربری پاسخگو و کم‌تأخیر در دستگاه‌های روزمره ضروری باشند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Vec-LUT: رویکردی نوین با شتاب ۴.۲ برابری برای استنتاج LLM در لبه

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Vec-LUT: رویکردی نوین با شتاب ۴.۲ برابری برای استنتاج LLM در لبه

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Vec-LUT: رویکردی نوین با شتاب ۴.۲ برابری برای استنتاج LLM در لبه

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Vec-LUT: رویکردی نوین با شتاب ۴.۲ برابری برای استنتاج LLM در لبه

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران