چگونه ExecuTorch استنتاج مدل‌های زبانی را در سخت‌افزارهای محدود بهینه می‌کند؟

آیا یک رزبری پای ۵ واقعاً می‌تواند در استنتاج مدل‌های زبانی از حالت استاندارد PyTorch سریع‌تر باشد؟ طبق گزارشی که در ۱۲ مه ۲۰۲۶ در وبلاگ PyTorch منتشر شد، پاسخ این سؤال در قابلیت «تفویض بک‌اند» (Backend Delegation) از طریق ExecuTorch نهفته است.

با انتقال هوش مصنوعی از APIهای ابری به گجت‌های پوشیدنی و دوربین‌های هوشمند، صنعت با یک گلوگاه حیاتی روبروست: اجرای مدل‌های پیچیده روی سخت‌افزارهایی با حافظه و توان محدود. ExecuTorch این مشکل را با گسترش اکوسیستم PyTorch حل می‌کند و به توسعه‌دهندگان اجازه می‌دهد مدل‌ها را به فرمت سبک .pte تبدیل کنند. این کار باعث می‌شود نیاز به ران‌تایم پایتون کاملاً حذف شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های کوچک اشاره کردیم، حذف لایه‌های اضافی نرم‌افزاری کلید دستیابی به سرعت در لبه است. این چارچوب برای رسیدن به بهره‌وری حداکثری از دو مسیر اصلی استفاده می‌کند:

استنتاج (Inference) — تشبیه روزمره: لحظه‌ای که مدل واقعاً جواب تولید می‌کند، مثل خودِ آشپزی و نه دوره‌ی آموزش آشپز — روی CPU: در پلتفرم‌های Arm، این سیستم از بک‌اند XNNPACK و میکروکرنل‌های KleidiAI برای بهره‌گیری از ویژگی‌های معماری Neon استفاده می‌کند.
شتاب‌دهی NPU: برای واحدهای پردازش عصبی Ethos-U، مدل‌ها به فرمت INT8 کوانتیزه شده و پیش از پردازش توسط کامپایلر Vela، به معماری TOSA (Tensor Operator Set Architecture) تبدیل می‌شوند.

PyTorch eager

ExecuTorch XNNPACK

در آزمایش‌های انجام شده با مدل ترنسفورمر OPT-125M روی یک رزبری پای ۵، ترکیب ExecuTorch و XNNPACK کاهش چشمگیر تأخیری (Latency) را نسبت به حالت Eager نشان داد. با این حال، به نقل از این گزارش، در صورت نبود سیستم خنک‌کننده فعال، گرم شدن CPU باعث کاهش سرعت در بلندمدت می‌شود. برای سخت‌افزارهای پیشرفته‌تر مانند Ethos-U85، سیستم از «اجرای ناهمگون» برای تقسیم گراف محاسباتی بین NPU و CPU استفاده می‌کند.

برای بهینه‌سازی این استقرارها، Arm ابزار Model Explorer گوگل را با آداپتورهای سفارشی ادغام کرده است. این قابلیت به مهندسان اجازه می‌دهد بصری ببینند که آیا یک مدل به صورت یک زیرگراف واحد روی NPU اجرا می‌شود یا به دلیل وجود عملگرهای پشتیبانی‌نشده، تکه‌تکه شده و بخشی از آن به CPU بازمی‌گردد.

MobileNetV2

MobileNetV2LRN

این سطح از شفافیت، هوش مصنوعی در لبه را از یک فرآیند «آزمون و خطا» به یک تکلیف مهندسی دقیق تبدیل می‌کند. با شناسایی دقیق لایه‌هایی که باعث بازگشت به CPU می‌شوند، توسعه‌دهندگان می‌توانند معماری مدل را بازنویسی کنند تا بهره‌وری NPU به حداکثر برسد؛ موضوعی که مستقیماً بر عمر باتری و پاسخ‌دهی آنی دستگاه اثر می‌گذارد.

گام بعدی شما

بررسی مجموعه‌ی Jupyter labs منتشر شده توسط Arm برای پیاده‌سازی این جریان‌ها روی سخت‌افزار خود.
تحلیل لایه‌های مدل‌های خود برای شناسایی عملگرهای ناسازگار با TOSA.
تست اثر خنک‌کننده فعال بر پایداری نرخ استنتاج در دستگاه‌های لبه.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استنتاج (Inference) — تشبیه روزمره: لحظه‌ای که مدل واقعاً جواب تولید می‌کند، مثل خودِ آشپزی و نه دوره‌ی آموزش آشپز — روی CPU: در پلتفرم‌های Arm، این سیستم از بک‌اند XNNPACK و میکروکرنل‌های KleidiAI برای بهره‌گیری از ویژگی‌های معماری Neon استفاده می‌کند.
شتاب‌دهی NPU: برای واحدهای پردازش عصبی Ethos-U، مدل‌ها به فرمت INT8 کوانتیزه شده و پیش از پردازش توسط کامپایلر Vela، به معماری TOSA (Tensor Operator Set Architecture) تبدیل می‌شوند.

PyTorch eager

ExecuTorch XNNPACK

MobileNetV2

MobileNetV2LRN

گام بعدی شما

بررسی مجموعه‌ی Jupyter labs منتشر شده توسط Arm برای پیاده‌سازی این جریان‌ها روی سخت‌افزار خود.
تحلیل لایه‌های مدل‌های خود برای شناسایی عملگرهای ناسازگار با TOSA.
تست اثر خنک‌کننده فعال بر پایداری نرخ استنتاج در دستگاه‌های لبه.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه ExecuTorch استنتاج مدل‌های زبانی را در سخت‌افزارهای محدود بهینه می‌کند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه ExecuTorch استنتاج مدل‌های زبانی را در سخت‌افزارهای محدود بهینه می‌کند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه ExecuTorch استنتاج مدل‌های زبانی را در سخت‌افزارهای محدود بهینه می‌کند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه ExecuTorch استنتاج مدل‌های زبانی را در سخت‌افزارهای محدود بهینه می‌کند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران