GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

انویدیا و مایکروسافت: سرعت استنتاج عامل‌های محلی ۲.۶ برابر شد

·۱۳ خرداد ۱۴۰۵۷ دقیقه مطالعه
ساخت عامل‌های هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا
ساخت عامل‌های هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

تلفیق کانتینرهای امنیتی MXC با شتاب‌دهنده‌های سخت‌افزاری RTX Spark؛ این اولین باری است که امنیت سطح هسته (Kernel) با سرعت استنتاج محلی در یک پکیج تجاری ادغام شده است.

اگر می‌خواهید یک عامل (Agent) — مثل دستیاری که نه فقط حرف می‌زند، بلکه می‌تواند در محیط کامپیوتر شما کارهای واقعی انجام دهد — بسازید که فایل‌های شخصی شما را بخواند، دو مانع بزرگ دارید: امنیت و تأخیر.

انویدیا و مایکروسافت در ۲ ژوئن ۲۰۲۶ با ادغام کانتینرهای اجرایی و استنتاج شتاب‌یافته سخت‌افزاری در هسته ویندوز، این مشکل را حل کردند. استنتاج (Inference) — که مثل خودِ آشپزی است، نه دوره‌ی آموزش آشپز — اکنون مستقیماً روی سخت‌افزار اجرا می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی Microsoft MAI-Image-2.5 اشاره کردیم، مایکروسافت به‌شدت روی بهره‌وری فشار می‌آورد. این همکاری، PC را به جای یک ترمینال ساده، به یک صندوقچه امن تبدیل می‌کند که ابرکامپیوتر داخلی دارد.

در قلب این سیستم، Microsoft eXecution Containers (MXC) قرار دارد. این لایه، عامل‌ها را از فایل‌های حساس سیستم جدا می‌کند. طبق اعلام مایکروسافت، محیط NVIDIA OpenShell روی MXC قرار می‌گیرد تا داده‌های شناسایی شخصی (PII) را پنهان کرده و مسیر استنتاج را مدیریت کند.

برای سخت‌افزار، لپ‌تاپ‌ها و دسکتاپ‌های جدید NVIDIA RTX Spark با ۱ پتافلاپ قدرت محاسباتی و ۱۲۸ گیگابایت حافظه عرضه شده‌اند.

ساخت عامل‌های هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

بهینه‌سازی‌های نرم‌افزاری نیز تهاجمی هستند. به نقل از گزارش developer.nvidia.com، ابزار llama.cpp اکنون در مدل‌های Qwen 3.5/3.6 27B با استفاده از پیش‌بینی چند-توکنی (MTP)، ۲ برابر عملکرد بهتری دارد. در همین حال، سرعت استنتاج vLLM تا ۲.۶ برابر افزایش یافته است.

ساخت ایجنت‌های هوش مصنوعی شخصی روی رایانه‌های ویندوز با ابزارهای جدید مایکروسافت و انویدیا

ساخت عوامل هوش مصنوعی شخصی در ویندوز با ابزارهای جدید مایکروسافت و انویدیا

سیستم‌های چند-GPU نیز تقویت شده‌اند. کاربران اکنون می‌توانند از موازی‌سازی تنسوری (Tensor Parallelism) در llama.cpp استفاده کنند تا قدرت محاسباتی ۱.۸ برابر و ظرفیت حافظه ۲ برابر شود.

این یک حرکت حساب‌شده برای جدا کردن هوش مصنوعی عامل‌محور از اشتراک‌های گران‌قیمت ابری است. برای کسب‌وکارها، این یعنی عامل‌ها می‌توانند کارهای «استفاده از کامپیوتر» — مثل کلیک در یک سیستم ERP قدیمی با مدل‌های H Company Holo 3.1 — را بدون ارسال داده‌های حساس به سرورهای دوردست انجام دهند. این تغییر، هزینه عامل‌های ۲۴ ساعته را می‌کاهد و تأخیری که بهره‌وری را می‌کشد، حذف می‌کند.

گام بعدی شما

  • برای دسترسی زودهنگام به این ابزارها، Microsoft Surface NVIDIA RTX Spark Dev Box را دنبال کنید.
  • تنظیمات موازی‌سازی تنسوری را در LM Studio تست کنید تا ببینید آیا سیستم فعلی شما مدل‌های محلی بزرگ‌تر را پشتیبانی می‌کند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این اقدام با تکیه بر تخصص سخت‌افزاری انویدیا و اعتبار سیستم‌عاملی مایکروسافت، استانداردی جدید برای «حریم خصوصی در عصر AI» تعریف می‌کند. در نتیجه، هزینه عملیاتی عامل‌های ۲۴ ساعته به‌شدت کاهش می‌یابد.

تأثیر برای ایران

اجرای محلی عامل‌ها، راهکاری کلیدی برای برنامه‌نویسان ایرانی است تا محدودیت‌های API و تحریم‌های دسترسی به ابر را دور بزنند. این تغییر، امکان توسعه ابزارهای اتوماسیون سازمانی را بدون نیاز به سرورهای خارجی فراهم می‌کند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما این است که این همکاری، نقطه شروع پایان عصر «وابستگی مطلق به ابر» برای عامل‌های هوشمند است. وقتی امنیت و سرعت در سطح سخت‌افزار تضمین شود، شرکت‌ها دیگر نیازی ندارند داده‌های حساس خود را برای اجرای دستورات ساده به سرورهای دوردست بفرستند.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه