اگر از کارت گرافیک با حافظه ۴ گیگابایت استفاده میکنید، احتمالاً مدلهای هوش مصنوعی شما در لحظه کرش میکنند. شما با یک عقبگرد فنی در مدیریت حافظه مواجه هستید که دسترسی سختافزارهای میانرده به AI محلی را مسدود کرده است.
میزبانی مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — به مدیریت دقیق حافظه گرافیکی (VRAM) نیاز دارد. این حافظه شبیه میز کاری است که مدل باید تمام ابزارهایش را روی آن بچیند تا بتواند پاسخ دهد. همانطور که در تحلیلهای پیشین ما درباره بهینهسازی مدلهای لبه اشاره کردیم، هر میلیبایت در اینجا حیاتی است.
طبق گزارش ۷ ژوئن ۲۰۲۶، مشکل اصلی در تخصیص حافظه Vulkan در نسخه Ollama 0.30.x نهفته است. بر اساس مستندات فنی این نسخه، سیستم در رزرو حافظه برای تانسورها بیش از حد تهاجمی عمل میکند. برای مثال، بارگذاری مدلهای کوانتیزه شده (Quantized) — که شبیه تبدیل یک عکس باکیفیت به JPEG برای کاهش حجم است — مانند مدل gemma4:26b-a4b-it-q4_K_M، بلافاصله منجر به خطای کمبود حافظه (OOM) میشود؛ وضعیتی شبیه تلاش برای جا دادن یک چمدان بزرگ در یک کمد کوچک. این رفتار در نسخه ۰.۲۴ بسیار محافظهکارانهتر و پایدارتر بود.
این بهروزرسانی نشان میدهد که توسعهدهندگان اولویت را به سختافزارهای قدرتمند دادهاند و کاربران لبه را فراموش کردهاند. وقتی یک تغییر کوچک در نحوه رزرو حافظه بتواند اجرای مدل را برای میلیونها کاربر مسدود کند، یعنی پایداری فدای عملکرد حداکثری شده است.
گام بعدی شما
- نسخه Ollama خود را بررسی کنید.
- اگر کرش دارید، متغیر محیطی
OLLAMA_VULKAN_MEMORY_FRACTION="0.5"را تنظیم کنید تا مصرف حافظه به ۵۰٪ محدود شود. - منتظر پچ رسمی برای بازگشت به رفتار پایدار نسخه ۰.۲۴ باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما درباره تراشههای Blackwell مراجعه کنید.
گفتگو