اگر برنامهنویسی هستید که از دیباگ کردن خطاهای Segmentation Fault در CUDA خسته شدهاید، باید بدانید که جریان کاری شما همین امروز تغییر کرد. در ۱۶ ژوئن ۲۰۲۶، NVlabs سامانه cuTile Rust را منتشر کرد؛ ابزاری که قوانین سختگیرانه مالکیت زبان رست را مستقیماً به کرنلهای GPU منتقل میکند تا تداخلات داده پیش از وقوع متوقف شوند.
برنامهنویسی GPU همیشه یک انتخاب سخت بود: یا امنیت زبانهای سطح بالا را میپذیرید یا سرعت خالص C++. سیستم cuTile Rust این شکاف را با رویکردی مبتنی بر کاشی (Tile-based) پر میکند؛ یعنی حافظه را مثل تکههای مجزای یک پازل میبیند که کامپایلر آنها را مدیریت میکند — درست شبیه به همان روشی که زبان رست حافظه را در CPU کنترل میکند. این رویکرد در مدیریت بهینه حافظه، یادآور تلاشهای اخیر برای کاهش زمان آموزش مدلها از طریق روش Shaping حافظه مشترک است که بهرهوری سیستمهای چند-GPU را افزایش داده بود. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، حذف خطاهای انسانی در لایههای زیرین، پیششرط مقیاسپذیری است.
به نقل از مستندات گیتهاب این پروژه، این سامانه از یک ماکروی خاص برای تبدیل کدهای رست به فایلهای اجرایی GPU استفاده میکند. طبق اعلام انویدیا، بنچمارکهای سختافزاری روی تراشه NVIDIA B200 اعداد خیرهکنندهای را نشان میدهند:
- عملیات Element-wise: سرعت ۷ ترابایت بر ثانیه (۹۱٪ از حداکثر پهنای باند حافظه).
- عملیات Dense f16 GEMM: سرعت ۲ پتافلاپس (۹۲٪ از توان پیک).
- هزینه امنیتی: تقریباً صفر؛ تفاوت سرعت نسخه امن رست با نسخههای سطح پایین تنها ۰.۳٪ است.
این تحول یعنی زبان رست دیگر فقط برای نوشتن ابزارهای جانبی AI نیست، بلکه به زبان اصلی توسعه کرنلها تبدیل شده است. اثر واقعی این موضوع را میتوان در Grout دید؛ موتور استنتاج (Inference) — که مثل لحظهی آشپزی واقعی است و نه یادگیری دستور پخت — برای مدل Qwen3 است که توسط Hugging Face توسعه یافته و روی RTX 5090 به سرعت ۱۷۱ توکن بر ثانیه رسیده است. 이러한 بهینهسازی در لایهی استنتاج، در کنار سامانه Dynamo Snapshot انویدیا که زمان Cold Start مدلها را به شدت کاهش داد، مسیر رسیدن به استنتاج آنی را هموارتر میکند.
گام بعدی شما
- اگر توسعهدهنده هستید، نسخهی Rust 1.89+ و CUDA 13.3 را نصب کنید تا cuTile را تست کنید.
- بررسی کنید کدام بخش از کرنلهای C++ پروژه شما بیشترین خطای حافظه را دارند و آنها را به رست منتقل کنید.
- تغییرات در سرعت استنتاج مدلهای کوچک را با استفاده از کتابخانه Grout رصد کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو