انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

اگر می‌خواهید یک عامل (Agent) — مثل دستیاری که نه فقط حرف می‌زند، بلکه می‌تواند در محیط کامپیوتر شما کارهای واقعی انجام دهد — بسازید که فایل‌های شخصی شما را بخواند، دو مانع بزرگ دارید: امنیت و تأخیر.

انویدیا و مایکروسافت در ۲ ژوئن ۲۰۲۶ با ادغام کانتینرهای اجرایی و استنتاج شتاب‌یافته سخت‌افزاری در هسته ویندوز، این مشکل را حل کردند. استنتاج (Inference) — که مثل خودِ آشپزی است، نه دوره‌ی آموزش آشپز — اکنون مستقیماً روی سخت‌افزار اجرا می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی Microsoft MAI-Image-2.5 اشاره کردیم، مایکروسافت به‌شدت روی بهره‌وری فشار می‌آورد. این همکاری، PC را به جای یک ترمینال ساده، به یک صندوقچه امن تبدیل می‌کند که ابرکامپیوتر داخلی دارد.

در قلب این سیستم، Microsoft eXecution Containers (MXC) قرار دارد. این لایه، عامل‌ها را از فایل‌های حساس سیستم جدا می‌کند. طبق اعلام مایکروسافت، محیط NVIDIA OpenShell روی MXC قرار می‌گیرد تا داده‌های شناسایی شخصی (PII) را پنهان کرده و مسیر استنتاج را مدیریت کند.

برای سخت‌افزار، لپ‌تاپ‌ها و دسکتاپ‌های جدید NVIDIA RTX Spark با ۱ پتافلاپ قدرت محاسباتی و ۱۲۸ گیگابایت حافظه عرضه شده‌اند.

ساخت عامل‌های هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

بهینه‌سازی‌های نرم‌افزاری نیز تهاجمی هستند. به نقل از گزارش developer.nvidia.com، ابزار llama.cpp اکنون در مدل‌های Qwen 3.5/3.6 27B با استفاده از پیش‌بینی چند-توکنی (MTP)، ۲ برابر عملکرد بهتری دارد. در همین حال، سرعت استنتاج vLLM تا ۲.۶ برابر افزایش یافته است.

ساخت ایجنت‌های هوش مصنوعی شخصی روی رایانه‌های ویندوز با ابزارهای جدید مایکروسافت و انویدیا

ساخت عوامل هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

سیستم‌های چند-GPU نیز تقویت شده‌اند. کاربران اکنون می‌توانند از موازی‌سازی تنسوری (Tensor Parallelism) در llama.cpp استفاده کنند تا قدرت محاسباتی ۱.۸ برابر و ظرفیت حافظه ۲ برابر شود.

این یک حرکت حساب‌شده برای جدا کردن هوش مصنوعی عامل‌محور از اشتراک‌های گران‌قیمت ابری است. برای کسب‌وکارها، این یعنی عامل‌ها می‌توانند کارهای «استفاده از کامپیوتر» — مثل کلیک در یک سیستم ERP قدیمی با مدل‌های H Company Holo 3.1 — را بدون ارسال داده‌های حساس به سرورهای دوردست انجام دهند. این تغییر، هزینه عامل‌های ۲۴ ساعته را می‌کاهد و تأخیری که بهره‌وری را می‌کشد، حذف می‌کند.

گام بعدی شما

برای دسترسی زودهنگام به این ابزارها، Microsoft Surface NVIDIA RTX Spark Dev Box را دنبال کنید.
تنظیمات موازی‌سازی تنسوری را در LM Studio تست کنید تا ببینید آیا سیستم فعلی شما مدل‌های محلی بزرگ‌تر را پشتیبانی می‌کند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ساخت عامل‌های هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

ساخت ایجنت‌های هوش مصنوعی شخصی روی رایانه‌های ویندوز با ابزارهای جدید مایکروسافت و انویدیا

ساخت عوامل هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

گام بعدی شما

برای دسترسی زودهنگام به این ابزارها، Microsoft Surface NVIDIA RTX Spark Dev Box را دنبال کنید.
تنظیمات موازی‌سازی تنسوری را در LM Studio تست کنید تا ببینید آیا سیستم فعلی شما مدل‌های محلی بزرگ‌تر را پشتیبانی می‌کند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران