اگر امروز با محدودیت حافظه در استقرار مدلهای بنیادی دستوپنجه نرم میکنید، باید بدانید که پارادایم ایزولاسیون مدلها در حال تغییر است. دیگر نیازی نیست برای هر وظیفهی تخصصی پاییندستی، یک نسخهی سنگین از مدل را تکثیر کنید و حافظهی شتابدهندهها را بیهوده مصرف نمایید.
بر اساس مستندات مقالهی FMplex که در ۹ ژوئن ۲۰۲۶ منتشر شد، این رویکرد مدلهای بنیادی را به عنوان یک زیرساخت مجازیسازی (Virtualization Substrate) تعریف میکند. همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، مدیریت بهینهی حافظه در مدلهای غولپیکر همواره گلوگاه اصلی در محیطهای عملیاتی بوده است.
در خط لولههای استقرار فعلی، هر وظیفه معمولاً به یک نمونهی مستقل از مدل نیاز دارد. این افزونگی باعث ایجاد تنگنا در بهرهوری حافظه شده و امکان توزیع هزینههای بارگذاری و دستهبندی را میگیرد. FMplex این مشکل را با معرفی مدل بنیادی مجازی (vFM — Virtual Foundation Model) حل میکند؛ یک نمونهی منطقی خصوصی که توسط یک مدل بنیادی فیزیکی مشترک پشتیبانی میشود.
جزئیات فنی این پیادهسازی شامل موارد زیر است:
- یک پشتهی استقرار (Deployment Stack) آگاه از اشتراکگذاری برای مدیریت ساخت وظایف و اجرای زمانِ اجرا.
- یک زمانبند صف-منصفانه (Fair-queueing Scheduler) که تعادلی میان اشتراکگذاری وزندار وظایف و دستهبندیهای (Batching) داخلی و خارجی ایجاد میکند.
- اعتبارسنجی گسترده بر روی ۷ مدل بنیادی (۱۶ گونهی مختلف) و ۹۲ وظیفهی مجزای پاییندستی.
به گزارش نتایج بنچمارکها، FMplex تأخیر را در مقایسه با تقسیمبندی فضایی (Spatial Partitioning) تا ۸۰ درصد و در مقایسه با هممکانیهای تلاش-بیشینه (Best-effort Co-location) تا ۳۳.۳ درصد کاهش میدهد. برای جامعهی فنی، این تغییر به معنای انتقال از «ایزولاسیون در سطح نمونه» به «ایزولاسیون مجازیشده» است. با جداسازی وظیفهی منطقی از مدل فیزیکی، مهندسان میتوانند افزونههای تخصصی و چرخهی عمر مستقل هر وظیفه را بدون تحمل هزینهی حافظهی تکثیر کامل مدل حفظ کنند.
گام بعدی شما
- پایش نحوهی ادغام اصول مجازیسازی در موتورهای استنتاج (Inference) جریان اصلی.
- بررسی این نکته که آیا این مقیاسپذیری در مدلهای تریلیون-پارامتری نیز ثابت میماند یا خیر.
- ارزیابی جایگزینی استقرار مدلهای تکمنظوره با ساختار vFM در کلاسترهای محدود.
اما چالشهای سختافزاری در مقیاس تریلیون-پارامتر متفاوت است؛ تحلیل ما دربارهی معماریهای حافظهی HBM و گلوگاههای جدید را دنبال کنید.
گفتگو