ضربه به هزینه‌های استنتاج: الگوریتم HPD چگونه سرعت مدل‌ها را ۱۳.۸ برابر کرد

اگر هنوز برای استخراج داده‌های ساختاریافته به استنتاج ترتیبی تکیه می‌کنید، احتمالاً دارید هزینه اضافی می‌پردازید. تصور کنید گلوگاه «یک توکن در هر لحظه» که تا امروز اجتناب‌ناپذیر به نظر می‌رسید، برای همیشه از بین برود.

به نقل از مقاله‌ای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران الگوریتم جدیدی به نام رمزگشایی فوق‌موازی (Hyper-Parallel Decoding یا HPD) را معرفی کرده‌اند. این سیستم با بهره‌گیری از حافظه مشترک و محاسبات موازی، زمان و هزینه استنتاج (Inference) را در وظایف خاص تا ۱۳.۸ برابر کاهش می‌دهد.

طبق این مستندات، HPD از طریق دستکاری شناسه‌ی موقعیت (Position ID)، امکان تولید توکن‌ها را به‌صورت خارج از ترتیب فراهم می‌کند و به‌طور مؤثر زنجیره خودبازگشتی (Autoregressive) را می‌شکند. این سیستم به‌طور ویژه برای استخراج مقدار ویژگی (Attribute Value Extraction یا AVE) بهینه شده است؛ جایی که باید چندین مقدار مستقل از یک سند واحد استخراج شوند.

دستاورد‌های فنی کلیدی این الگوریتم عبارتند از:

امکان تولید موازی تا ۹۶ توکن برای هر پرامپت از طریق پشته‌سازی اسناد.
کاهش چشمگیر زمان کل استنتاج و هزینه‌های عملیاتی تا ۱۳.۸ برابر.
حفظ کیفیت خروجی بدون هیچ‌گونه افت در دقت مدل.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن و محدودیت‌های اخلاقی ربات‌ها دیدیم — جایی که در یک مطالعه ۵۴٪ مدل‌ها استانداردهای پزشکی را نقض کردند — بهینه‌سازی مکانیکی فرآیند استنتاج اکنون به اولویت اول تبدیل شده است تا هزینه‌های پردازش داده‌های حجیم در مقیاس صنعتی کاهش یابد.

از آنجا که HPD پیش‌فرض‌های خاصی برای دامنه AVE ندارد، تئوریک است که بتوان آن را در هر سناریویی که خروجی‌های مستقل دارد به کار برد. این موضوع تحلیل هزینه-فایده برای انتقال از APIهای ابری به استنتاج محلی را به‌طور کامل تغییر می‌دهد.

اما این تنها آغاز ماجراست؛ این‌که آیا معماری حافظه GPUهای فعلی می‌تواند با این حجم از موازی‌سازی تهاجمی پیش برود یا خیر، بحث بعدی ما خواهد بود.

گام بعدی شما

بررسی امکان پیاده‌سازی HPD در محیط‌های استنتاج محلی (Self-hosted) برای کاهش هزینه‌ها.
مقایسه نرخ توکن‌های تولید شده در ثانیه در مدل‌های AVE پیش از و پس از اعمال HPD.
دنبال کردن توسعه این الگوریتم برای کاربردهایی فراتر از استخراج ویژگی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دستاورد‌های فنی کلیدی این الگوریتم عبارتند از:

امکان تولید موازی تا ۹۶ توکن برای هر پرامپت از طریق پشته‌سازی اسناد.
کاهش چشمگیر زمان کل استنتاج و هزینه‌های عملیاتی تا ۱۳.۸ برابر.
حفظ کیفیت خروجی بدون هیچ‌گونه افت در دقت مدل.

گام بعدی شما

بررسی امکان پیاده‌سازی HPD در محیط‌های استنتاج محلی (Self-hosted) برای کاهش هزینه‌ها.
مقایسه نرخ توکن‌های تولید شده در ثانیه در مدل‌های AVE پیش از و پس از اعمال HPD.
دنبال کردن توسعه این الگوریتم برای کاربردهایی فراتر از استخراج ویژگی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه به هزینه‌های استنتاج: الگوریتم HPD چگونه سرعت مدل‌ها را ۱۳.۸ برابر کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه به هزینه‌های استنتاج: الگوریتم HPD چگونه سرعت مدل‌ها را ۱۳.۸ برابر کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه به هزینه‌های استنتاج: الگوریتم HPD چگونه سرعت مدل‌ها را ۱۳.۸ برابر کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ضربه به هزینه‌های استنتاج: الگوریتم HPD چگونه سرعت مدل‌ها را ۱۳.۸ برابر کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران