GPUStack v2.2 زیرساخت‌های استنتاج را به سرویس‌های ابری GPU تبدیل کرد

منبع خبر

۵۳ دقیقه پیش·۹ تیر ۱۴۰۵۷ دقیقه مطالعه

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع قدرت پردازش تا پردازنده گرافیکی به‌عنوان سرویس

اشتراک‌گذاری

تصور کنید مدل هوش مصنوعی شما در محیط عملیاتی فعال است، اما کاربران پاسخ‌های خالی دریافت می‌کنند و سیستم همچنان وضعیت را «سالم» نشان می‌دهد. این شکاف میان «اجرای مدل» و «مدیریت عملیاتی»، دقیقاً همان نقطه‌ای است که GPUStack v2.2 برای حل آن طراحی شده است. تغییر در استقرار هوش مصنوعی اکنون به این معناست که لانچ کردن یک مدل دیگر خط پایان نیست، بلکه نقطه شروع است. طبق گزارش وب‌سایت dev.to، این پلتفرم که در ۳۰ ژوئن ۲۰۲۶ عرضه شد، از یک ابزار ساده برای سرویس‌دهی مدل‌ها به یک زیرساخت جامع برای ارائه خدمات هوش مصنوعی در سطح سازمانی تبدیل شده است.

همان‌طور که برنامه‌های مبتنی بر مدل‌های زبانی بزرگ به سمت تولید در مقیاس بالا حرکت می‌کنند، زیرساخت‌های هوش مصنوعی وارد مرحله اجتناب‌ناپذیر بلوغ می‌شوند. این تغییر صرفاً افزودن ویژگی‌های جدید نیست، بلکه بازتابی از حرکت به سمت ایجاد قابلیت دید (Visibility) و قابلیت اطمینان در سطح عملیاتی است. چالش اصلی در پیشبرد موازی دو حوزه نهفته است: سرویس‌دهی مدل باید قابل اعتماد شود و در عین حال، مدیریت محاسبات باید از سرویس‌دهی ساده استنتاج به تخصیص یکپارچه تمامی منابع متنوع مورد نیاز هوش مصنوعی گسترش یابد. این ضرورت تکامل زیرساخت، به‌ویژه زمانیکه تکیه بر تنها یک مدل به یک ریسک تجاری تبدیل می‌شود، اهمیت می‌یابد؛ موضوعی که در تحلیل ما درباره نقش لایه‌ی مسیریابی در ایجاد مزیت رقابتی هوش مصنوعی مورد بررسی قرار گرفته است.

بسیاری از تیم‌های فنی زمانی که یک مدل وارد مرحله تولید در مقیاس بزرگ می‌شود، دچار مشکل می‌شوند. انتقال از یک استارتاپ موفق به یک سرویس پایدار، جایی است که خطاهای OOM (کمبود حافظه)، درخواست‌های استنتاج معلق (Hanging) و کرش‌های خاموش پردازش معمولاً رخ می‌دهند. تصور کنید در یک محیط تولیدی، یک نمونه معیوب همچنان ترافیک دریافت می‌کند زیرا سیستم فکر می‌کند سالم است، اما کاربران پاسخ‌های خالی دریافت می‌کنند. هدف نسخه ۲.۲ پل زدن میان این فاصله است.

عملیاتی‌سازی چرخه حیات مدل

در نسخه‌های پیشین GPUStack، بررسی‌های سلامت (Health Checks) عمدتاً بر مرحله راه‌اندازی متمرکز بود. وقتی یک نمونه با موفقیت استارت می‌خورد، پلتفرم راهی برای شناسایی مشکلاتی که بعداً رخ می‌دادند نداشت. نمونه‌های معیوب می‌توانستند در استخر سرویس باقی بمانند و به دریافت ترافیک ادامه دهند، که منجر به شکست‌های خاموشی می‌شد که تنها پس از بازرسی دستی یا گزارش کاربران شناسایی می‌شدند.

به نقل از مستندات رسمی این پروژه، نسخه ۲.۲ پایش سلامت را به کل چرخه حیات زمان اجرا (Runtime Lifecycle) گسترش داده است. سیستم اکنون قابلیت استنتاج (Inference) — یعنی همان لحظه‌ی تولید جواب توسط مدل، شبیه به خودِ آشپزی (نه آموزش آشپز) — را به‌طور مداوم رصد می‌کند. اگر یک نمونه غیرعادی شناسایی شود، سیستم فوراً آن را از استخر سرویس حذف کرده و به‌طور خودکار ری‌استارت می‌کند. پس از بازیابی، نمونه مجدداً به استخر اضافه می‌شود تا در دسترس بودن سرویس به‌طور پیش‌دستانه حفظ شود.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجميع پردازش تا GPU به‌عنوان سرویس

عیب‌یابی نیز از محیط ترمینال به رابط کاربری (UI) منتقل شده است تا اطمینان حاصل شود که تیم‌ها سوابق کاملی از شکست‌ها دارند. توسعه‌دهندگان اکنون به سه نوع لاگ حیاتی دسترسی دارند:

لاگ‌های تاریخی پیش از ری‌استارت: این قابلیت به شما اجازه می‌دهد خروجی کامل را قبل از کرش کردن نمونه مشاهده کنید و مطمئن شوید لاگ‌های خطا پس از ری‌استارت پاک نمی‌شوند.
لاگ‌های توزیع‌شده زیر-نمونه‌ها (Sub-instance): امکان بررسی خروجی هر گره به‌صورت مجزا در استقرارهای چند-گره‌ای را فراهم می‌کند تا نقطه شکست سریعاً شناسایی شود.
لاگ‌های کانتینر Ray: مشاهده مستقیم لاگ‌های کانتینرهای Ray در محیط UI، بدون نیاز به اجرای دستورات دستی عیب‌یابی در ترمینال.

GPUStack v۲.۲: از ارائه مدل تا عملیات توکن، از تجمیع محاسبه تا GPU به‌عنوان سرویس

برای کسانی که استنتاج توزیع‌شده را مقیاس می‌کنند، حالت vLLM MP auto-distributed معرفی شده است. پیش از این، GPUStack تنها از استقرارهای توزیع‌شده vLLM مبتنی بر Ray پشتیبانی می‌کرد و استقرارهای مبتنی بر MP باید به‌صورت دستی پیکربندی می‌شدند، زیرا پلتفرم نمی‌توانست تمام نمونه‌های توزیع‌شده را به‌طور خودکار فعال کند. با تکامل سریع vLLM، حالت جدید مبتنی بر MP مزایای واضحی نسبت به استقرارهای Ray از نظر سربار عملیاتی و عملکرد استنتاج دارد. کاربران اکنون می‌توانند استراتژی توزیع اتوماتیک vLLM را که با نیازهای خاص آن‌ها در مورد تأخیر (Latency) و توان عملیاتی (Throughput) سازگار است، انتخاب کنند.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع قدرت محاسباتی تا GPU به‌عنوان سرویس

هدررفت منابع نیز هدف بعدی این به‌روزرسانی است. در محیط‌های سازمانی، تنظیم دقیق (Fine-tuning) — که مثل وقتی است به یک پزشک عمومی تخصص پوست می‌دهیم تا روی یک حوزه دقیق شود — برای سناریوهای مختلف تجاری یک استاندارد است. پیش‌تر، هر آداپتور (Adapter) لورا (LoRA) باید به‌عنوان یک نمونه مدل مجزا اجرا می‌شد که باعث می‌شد سربار حافظه GPU به‌صورت خطی با تعداد وظایف افزایش یابد. اما پشتیبانی از Multi-LoRA در نسخه ۲.۲ اجازه می‌دهد چندین آداپتور لورا روی یک مدل پایه سوار شوند و به‌صورت پویا جابه‌جا شوند. این امر اجازه می‌دهد سخت‌افزار یکسان، وظایف تنظیم‌شده بیشتری را پشتیبانی کند و بهره‌وری حافظه GPU به‌طور قابل‌توجهی بهبود یابد.

حاکمیت توکن و تخصیص هزینه‌ها

وقتی چندین تیم و برنامه از یک پلتفرم مشترک استفاده می‌کنند، مصرف توکن اغلب به یک «جعبه سیاه» تبدیل می‌شود. GPUStack پیش‌تر آمارهای مصرف را بر اساس مدل و کاربر ردیابی می‌کرد که به تیم‌ها کمک می‌کرد روندهای کلی را درک کنند. با این حال، این دو بُعد برای تخصیص دقیق هزینه‌ها کافی نبودند. وقتی خطوط مختلف کسب‌وکار چندین کلید API را تحت یک حساب کاربری مشترک به اشتراک می‌گذارند، مصرف را نمی‌توان به‌وضوح تفکیک کرد و حسابداری دقیق هزینه‌ها دشوار می‌شود.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع محاسبه تا GPU به‌عنوان سرویس

نسخه ۲.۲ این مشکل را با پیاده‌سازی آمار مصرف در سطح API Key حل کرد. مصرف توکن برای هر کلید به‌صورت مستقل اندازه‌گیری می‌شود. این قابلیت به مدیران اجازه می‌دهد دقیقاً ببینند کدام فراخوان، چه مقدار و چه چیزی مصرف می‌کند و یک مبنای واقعی برای تخصیص هزینه‌ها بین تیم‌ها و مدیریت سهمیه‌ها (Quota) فراهم می‌کند.

برای کاهش بار عملیاتی مدیران، نسخه ۲.۲ استعلامات شخصی مصرف را به‌صورت سلف‌سرویس معرفی کرده است. کاربرانی که پیش‌تر مجبور بودند برای دریافت داده‌ها از مدیران درخواست دهند، اکنون می‌توانند تاریخچه مصرف خود را بر اساس مدل و بازه زمانی مستقیماً در رابط کاربری مشاهده کنند. با استقرار این قابلیت‌های اندازه‌گیری، مصرف توکن به داده‌های عملیاتی تبدیل می‌شود که از بازپرداخت‌های داخلی (Chargebacks) و تحلیل‌های دقیق هزینه پشتیبانی می‌کند.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع قدرت پردازش تا GPU به‌عنوان سرویس

مقاوم‌سازی استقرار سازمانی

قابلیت‌های پلتفرم تنها زمانی محقق می‌شوند که توسط یک تجربه استقرار مستحکم پشتیبانی شوند. در نسخه ۲.۲، GPUStack شکاف‌های کلیدی در استقرار تولیدی سازمانی را در سه حوزه خاص برطرف کرده است:

یکپارچگی با Kubernetes: از آنجایی که K8s انتخابی رایج برای زیرساخت‌های سازمانی است، نسخه ۲.۲ اکنون Helm Chart رسمی را ارائه می‌دهد. این امر نصب و پیکربندی را از طریق Helm در یک فرآیند تک‌مرحله‌ای ساده می‌کند و اجازه می‌دهد GPUStack مستقیماً در گردش‌کارهای GitOps و سیستم‌های CI/CD قرار گیرد.
سازگاری با پایگاه‌داده: پلتفرم پشتیبانی از پایگاه‌داده‌های خود را گسترش داده تا OceanBase و openGauss را نیز شامل شود و به تیم‌ها انعطاف بیشتری در محیط‌های استقرار سازمانی‌شان بدهد.
توپولوژی شبکه: نسخه ۲.۲ اکنون از حالت دسترسی یک‌طرفه Worker-to-Server پشتیبانی می‌کند. در سناریوهای بین-منطقه‌ای یا مرزهای شبکه، برقراری اتصال دوطرفه اغلب دشوار است. با شبکه یک‌طرفه، گره‌های Worker فقط نیاز به دسترسی به سرور دارند و سرور نیازی به ایجاد اتصالات معکوس ندارد، که این امر مانع بزرگی را برای مدیریت خوشه‌های چند-منطقه‌ای برطرف می‌کند.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع پردازش تا GPU به‌عنوان سرویس

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجميع پردازش تا GPU به‌عنوان سرویس

از تجمع محاسباتی به سرویس GPU

زمان‌بندی یکپارچه منابع محاسباتی ناهمگون — یعنی آوردن GPUهای برندها و مشخصات مختلف در یک استخر واحد — همواره نقطه قوت اصلی این پلتفرم بوده است. با این حال، آن استخر در درجه اول برای استنتاج استفاده می‌شد. دانشمندان داده اغلب به محیط‌های توسعه تعاملی نیاز دارند و مهندسان الگوریتم ممکن است برای دیباگ و آزمایش به GPUهای اختصاصی نیاز داشته باشند. پیش از این، این نیازها از طریق سیستم‌های مجزا مدیریت می‌شدند و منجر به تخصیص پراکنده منابع می‌گشتند. این چالش‌ها در واقع بخشی از همان گلوگاه‌های سخت‌افزاری هستند که مقیاس‌بندی تولید هوش مصنوعی را در بسیاری از سازمان‌ها با دشواری مواجه کرده‌اند.

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجميع پردازش تا GPU به‌عنوان سرویس

سرویس GPU Instance در نسخه ۲.۲، فرآیند تخصیص محیط‌های ایزوله گرافیکی را زیر مدیریت یکپارچه پلتفرم می‌آورد. کاربران اکنون می‌توانند نمونه‌های ایزوله GPU را به‌صورت درخواستی با قابلیت‌های زیر درخواست دهند:

تعیین برند GPU، مدل و تعداد.
انتخاب قالب‌های زمان اجرا (Runtime Templates) که شامل نقاط اتصال ذخیره‌سازی (Storage Mounts) و پیکربندی پورت‌ها است.
دسترسی به نمونه از طریق SSH یا محیط وب.

از آنجایی که مصرف به‌صورت متمرکز اندازه‌گیری می‌شود و از همان سیستم زمان‌بندی سرویس‌های استنتاج استفاده می‌کند، مدیریت دیگر پراکنده نخواهد بود. این یک تغییر بنیادین است که در آن یک استخر محاسباتی واحد، هم به‌عنوان موتور استنتاج و هم به‌عنوان ارائه‌دهنده نمونه‌های GPU درخواستی عمل می‌کند. این پایه، قابلیت‌های آینده مانند زمان‌بندی منابع برای آموزش و تنظیم دقیق (Fine-tuning) و تقسیم‌بندی مجازی‌تر محاسبات را ممکن می‌سازد.

این تحول، شیوه مدیریت زیرساخت AI را تغییر می‌دهد. شرکت‌ها به‌جای مدیریت ناوگانی از سرورهای استنتاج، اکنون می‌توانند یک استخر محاسباتی یکپارچه را مدیریت کنند که به‌عنوان یک سرویس انعطاف‌پذیر عمل کرده و سخت‌افزار خام را به یک ابزار شفاف تبدیل می‌کند.

با ایجاد این بنیاد متن‌باز، نسخه تجاری (GPUStack v2.2 Enterprise Edition) که در راه است، بر حاکمیت در سطح سازمان و عملیات تجاری تمرکز خواهد کرد. این نسخه برای محیط‌های پیچیده‌ای طراحی شده است که به ایزولاسیون چند-مستأجری، محدودیت‌های دقیق سهمیه و نرخ (Rate Limiting)، کنترل دسترسی و قابلیت دسترسی بالا (High Availability) در سطح تولید نیاز دارند. نسخه تجاری به‌طور خاص به چالش‌های مدیریت مصرف محاسبات تا سطح هر API Key و مسیر مدل، بصری‌سازی توپولوژی منابع و مدیریت کامل صورت‌حساب توکن و GPU خواهد پرداخت.

برای بررسی این بهبودهای عملیاتی، می‌توانید مستندات رسمی را مطالعه کنید یا استقرار خود را از طریق مخزن گیت‌هاب آن‌ها آغاز نمایید.

شروع به کار:

گیت‌هاب: https://github.com/gpustack/gpustack
مستندات: https://docs.gpustack.ai
تماس: https://gpustack.ai/contact/

گام بعدی شما

اگر از vLLM برای استقرار مدل استفاده می‌کنید، حالت MP auto-distributed را برای کاهش سربار عملیاتی آزمایش کنید.
برای بهینه‌سازی VRAM، مدل‌های تخصصی خود را از طریق Multi-LoRA روی یک مدل پایه مستقر کنید.
برای کنترل هزینه‌ها، سیستم پرداخت داخلی خود را با API Key metering متصل کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

GPUStack v2.2 زیرساخت‌های استنتاج را به سرویس‌های ابری GPU تبدیل کرد

Dev.to AI

منبع خبر

۵۳ دقیقه پیش·۹ تیر ۱۴۰۵۷ دقیقه مطالعه

GPUStack v۲.۲: از سرویس‌دهی مدل تا عملیات توکن، از تجمیع قدرت پردازش تا پردازنده گرافیکی به‌عنوان سرویس

اشتراک‌گذاری