چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

اگر از کارت گرافیک با حافظه ۴ گیگابایت استفاده می‌کنید، احتمالاً مدل‌های هوش مصنوعی شما در لحظه کرش می‌کنند. شما با یک عقب‌گرد فنی در مدیریت حافظه مواجه هستید که دسترسی سخت‌افزارهای میان‌رده به AI محلی را مسدود کرده است.

میزبانی مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — به مدیریت دقیق حافظه گرافیکی (VRAM) نیاز دارد. این حافظه شبیه میز کاری است که مدل باید تمام ابزارهایش را روی آن بچیند تا بتواند پاسخ دهد. همان‌طور که در تحلیل‌های پیشین ما درباره بهینه‌سازی مدل‌های لبه اشاره کردیم، هر میلی‌بایت در اینجا حیاتی است.

طبق گزارش ۷ ژوئن ۲۰۲۶، مشکل اصلی در تخصیص حافظه Vulkan در نسخه Ollama 0.30.x نهفته است. بر اساس مستندات فنی این نسخه، سیستم در رزرو حافظه برای تانسورها بیش از حد تهاجمی عمل می‌کند. برای مثال، بارگذاری مدل‌های کوانتیزه شده (Quantized) — که شبیه تبدیل یک عکس باکیفیت به JPEG برای کاهش حجم است — مانند مدل gemma4:26b-a4b-it-q4_K_M، بلافاصله منجر به خطای کمبود حافظه (OOM) می‌شود؛ وضعیتی شبیه تلاش برای جا دادن یک چمدان بزرگ در یک کمد کوچک. این رفتار در نسخه ۰.۲۴ بسیار محافظه‌کارانه‌تر و پایدارتر بود.

این به‌روزرسانی نشان می‌دهد که توسعه‌دهندگان اولویت را به سخت‌افزارهای قدرتمند داده‌اند و کاربران لبه را فراموش کرده‌اند. وقتی یک تغییر کوچک در نحوه رزرو حافظه بتواند اجرای مدل را برای میلیون‌ها کاربر مسدود کند، یعنی پایداری فدای عملکرد حداکثری شده است.

گام بعدی شما

نسخه Ollama خود را بررسی کنید.
اگر کرش دارید، متغیر محیطی OLLAMA_VULKAN_MEMORY_FRACTION="0.5" را تنظیم کنید تا مصرف حافظه به ۵۰٪ محدود شود.
منتظر پچ رسمی برای بازگشت به رفتار پایدار نسخه ۰.۲۴ باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گام بعدی شما

نسخه Ollama خود را بررسی کنید.
اگر کرش دارید، متغیر محیطی OLLAMA_VULKAN_MEMORY_FRACTION="0.5" را تنظیم کنید تا مصرف حافظه به ۵۰٪ محدود شود.
منتظر پچ رسمی برای بازگشت به رفتار پایدار نسخه ۰.۲۴ باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های بزرگ در Ollama 0.30 روی کارت‌های ۴ گیگابایتی کرش می‌کنند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران