راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

تصور کنید گران‌ترین GPUهای دنیا را خریده‌اید، اما آن‌ها صرفاً منتظرند تا یک پردازش ساده‌ی پایتونی به پایان برسد. این «دیوار GIL» دقیقاً همان جایی است که بهره‌وری مدل‌های زبانی بزرگ در مقیاس صنعتی متوقف می‌شود.

در ۳۰ آوریل ۲۰۲۶، بنیاد LightSeek با معرفی Shepherd Model Gateway (SMG) این ناکارآمدی را هدف قرار داد. به نقل از گزارش pytorch.org، این ابزار کل بار کاری CPU را از مسیر GPU جدا کرده و فرآیندهای توکنایز کردن، دیتوکنایز کردن و سازمان‌دهی ابزارها را به یک لایه‌ی سرویس‌دهنده‌ی خالص در زبان Rust منتقل می‌کند که از طریق gRPC ارتباط برقرار می‌کند.

طبق اعلام این بنیاد، بیشترین جهش عملکرد در سناریوهای با ترافیک بالا و بافتار بلند (Long-context) دیده می‌شود. در بنچمارک‌های مربوط به مدل Llama-3.3-70B-FP8 با ورودی‌های ۷,۸۰۰ توکنی، SMG توانست نرخ خروجی را از ۳۲۷ توکن در ثانیه به ۱,۱۵۰ توکن برساند؛ یعنی افزایشی ۳.۵ برابری در سرعت استنتاج (Inference).

دستاورد‌های فنی کلیدی این سیستم عبارت‌اند از:

پردازش چندوجهی (Multimodal) بومی در Rust: بازنویسی کامل پردازشگرهای تصویر Hugging Face برای حذف کامل سربار پایتون.
کش توکنایزر دو سطحی: سیستمی با دو لایه L0 (تطبیق دقیق) و L1 (آگاه از پیشوند) که توکنایز کردن را از مسیر موتور استنتاج خارج می‌کند.
مسیریابی آگاه از کش: بازنویسی جریان مسیریابی که ۱۰ تا ۱۲ برابر سریع‌تر شده و میانگین زمان رسیدن به اولین توکن (TTFT) را در ۸ نسخه Llama تا ۲۳٪ کاهش داده است.

علاوه بر سرعت، SMG قابلیت سازمان‌دهی ابزارهای پروتکل بافتار مدل (Model Context Protocol - MCP) و یک میان‌افزار مبتنی بر WASM را برای توسعه‌پذیری ایزوله فراهم می‌کند. این یعنی توسعه‌دهندگان می‌توانند مدل‌های Llama یا Qwen را با قابلیت‌های داخلی مشابه GPT-4 مستقر کنند، بدون اینکه نیاز به تغییر در موتور استنتاج اصلی باشد.

همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی زیرساخت‌های استنتاج اشاره کردیم، SMG نشان‌دهنده‌ی گذار به سمت زیرساخت‌های سطح حرفه‌ای است. در این مدل، گیت‌وی به عنوان یک لایه‌ی هوشمند و مستقل عمل می‌کند تا موتور استنتاج صرفاً بر محاسبات تانسوری تمرکز کند و لایه‌ی Rust تمام کارهای «اداری» خط لوله هوش مصنوعی زاینده (Generative AI) را مدیریت کند.

با پذیرش این فناوری در گوگل کلاد (Google Cloud Platform)، اوراکل (Oracle Cloud Infrastructure) و TogetherAI، صنعت به سمتی می‌رود که پشته‌ی سرویس‌دهی به اندازه خودِ وزن‌های مدل بهینه شود. اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی جایگزینی لایه‌های پیش‌پردازش پایتونی با پیاده‌سازی‌های Rust برای کاهش تأخیر.
مطالعه مستندات MCP برای پیاده‌سازی ابزارهای پیشرفته در مدل‌های وزن‌باز.
ارزیابی تأثیر کاهش TTFT بر تجربه کاربری در اپلیکیشن‌های چت‌بات.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دستاورد‌های فنی کلیدی این سیستم عبارت‌اند از:

پردازش چندوجهی (Multimodal) بومی در Rust: بازنویسی کامل پردازشگرهای تصویر Hugging Face برای حذف کامل سربار پایتون.
کش توکنایزر دو سطحی: سیستمی با دو لایه L0 (تطبیق دقیق) و L1 (آگاه از پیشوند) که توکنایز کردن را از مسیر موتور استنتاج خارج می‌کند.
مسیریابی آگاه از کش: بازنویسی جریان مسیریابی که ۱۰ تا ۱۲ برابر سریع‌تر شده و میانگین زمان رسیدن به اولین توکن (TTFT) را در ۸ نسخه Llama تا ۲۳٪ کاهش داده است.

گام بعدی شما

بررسی جایگزینی لایه‌های پیش‌پردازش پایتونی با پیاده‌سازی‌های Rust برای کاهش تأخیر.
مطالعه مستندات MCP برای پیاده‌سازی ابزارهای پیشرفته در مدل‌های وزن‌باز.
ارزیابی تأثیر کاهش TTFT بر تجربه کاربری در اپلیکیشن‌های چت‌بات.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران