تصور کنید هوش مصنوعی در لحظه و بدون افت فریم، گرافیک بازی را تغییر دهد. برای توسعهدهندگان Unreal Engine 5 (UE5)، این دیگر یک رویا نیست، بلکه نتیجهی بهینهسازی سختافزاری است.
طبق اعلام انویدیا (NVIDIA) در ۳۰ آوریل ۲۰۲۶، یک پلاگین جدید برای ادغام TensorRT for RTX در موتور شبکه عصبی (Neural Network Engine - NNE) عرضه شده است. به نقل از گزارش developer.nvidia.com، این یکپارچهسازی به توسعهدهندگان اجازه میدهد تا محیطهای اجرای عمومی را کنار گذاشته و از یک بهینهساز Just-In-Time (JIT) استفاده کنند که موتورهای استنتاج (Inference) را دقیقاً متناسب با GPU کاربر تولید میکند.
این بهینهسازی برای کارهایی مانند افزایش رزولوشن (Super-resolution)، حذف نویز (Denoising) و رندرینگ عصبی حیاتی است. پلاگین NNERuntimeTRT با کارتهای گرافیک RTX از نسل Turing (قابلیت محاسباتی ۷.۵) تا نسل Blackwell (۱۰.۰) سازگار است.
برای نمایش این تأثیر، انویدیا یک پروژه پسپردازش انتقال سبک (Style Transfer) را پیادهسازی کرد.

بر اساس مستندات فنی، بنچمارکهای اجرا شده روی یک NVIDIA GeForce RTX 5090 در رزولوشن ۱۰۸۰p، شکاف عمیقی در بهرهوری را نشان میدهد. هنگام استفاده از DirectML، اجرای تسک مربوطه ۵.۷ میلیثانیه زمان برد.

در مقابل، محیط اجرای TensorRT for RTX همین تسک را در ۳.۸ میلیثانیه به پایان رساند که نشاندهنده بهبود عملکرد ۱.۵ برابری است.

همانطور که در تحلیلهای قبلی ما دربارهی معماری تراشههای Blackwell اشاره کردیم، هدف انویدیا حذف هرگونه گلوگاه در مسیر دادههاست. این پلاگین برای دستیابی به این هدف، دو مسیر اجرای مجزا ارائه میدهد:
- فراخوانهای همزمان CPU: ایدهآل برای ویرایشگران و تسکهای رویداد-محور مانند مدلهای زبانی بزرگ.
- RDG نامتقارن (Asynchronous RDG): بهینهشده برای پسپردازشهای AI و افزایش مقیاس (Upscaling) از طریق همراستاسازی ارزیابی مدل با منابع رندرینگ.
به توسعهدهندگان توصیه شده است تا ابعاد مدلهای ONNX را (مثلاً به ۱x۳x۷۲۰x۷۲۰) تغییر دهند تا از سربار تایلبندی (Tiling) جلوگیری کنند؛ چرا که این موضوع باعث جابهجاییهای مکرر و هزینهبر میان CUDA و گرافیک میشود.
با گسترش GPUهای Blackwell، صنعت منتظر است ببیند آیا رویکرد بهینهسازی JIT به استاندارد اجباری برای تمام محیطهای اجرای AI در زمان واقعی تبدیل میشود یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- پلاگین NNERuntimeTRT را در پروژههای UE5 خود فعال و جایگزین DirectML کنید.
- ابعاد مدلهای ONNX را برای حذف سربار Tiling بهینهسازی کنید.
- برای تسکهای پسپردازش، مسیر اجرای Asynchronous RDG را تست کنید.
گفتگو