حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

اگر از مدل‌های محلی برای تحلیل متن‌های طولانی روی مک استفاده می‌کنید، سیستم شما در معرض یک توقف ناگهانی است. یک باگ بحرانی در نسخه‌ی ۰.۳۰.۶ باعث می‌شود هر ورودی طولانی، کل پردازش گرافیکی شما را به زمین بزند.

این مشکل مستقیماً برنامه‌نویسانی را هدف قرار داده که از بردار معنایی (Embedding) — که مثل یک کارت شناسایی عددی برای هر واژه است تا مدل بفهمد کدام کلمات به هم شبیه‌اند — در محیط‌های محلی استفاده می‌کنند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های کوچک اشاره کردیم، پایداری در محیط‌های لبه (Edge) همیشه چالش‌برانگیز است.

به گزارش منتشر شده در ۷ ژوئن ۲۰۲۶، این خطا دقیقاً در نقطه اتصال /api/embed رخ می‌دهد. طبق مستندات فنی، این یک پس‌رفت (Regression) در نسخه‌ی ۰.۳۰.۶ است که در نسخه‌ی ۰.۲۴.۰ وجود نداشت. جزئیات فنی این شکست عبارتند از:

هدف: مدل qwen3-embedding:0.6b.
محرک: ورودی‌های بیش از ۴,۰۰۰ توکن (Token) — یعنی تکه‌های کوچکی از متن مثل برش‌های یک کیک.
علت: خطای Segmentation Fault هنگام استفاده از شتاب‌دهنده گرافیکی Metal GPU در llama-server.

این اتفاق برای شما به معنای قطعی ناگهانی در جریان‌های کاری تولید بازیابی‌افزا (RAG) است؛ سیستمی که مثل دانش‌آموزی است که قبل از جواب دادن، اول کتاب را باز می‌کند تا دقیق‌تر پاسخ دهد. وقتی اسناد شما طولانی باشند، اپلیکیشن شما بدون هیچ هشدار قبلی کرش می‌کند و تمام محاسبات جاری از بین می‌رود.

گام بعدی شما

دانگرید به نسخه ۰.۲۴.۰ از طریق Homebrew برای بازگرداندن پایداری سیستم.
تقسیم متن‌های ورودی به تکه‌های ۲,۰۰۰ کاراکتری و میانگین‌گیری از بردارهای حاصل.
نظارت بر انتشار پچ رسمی در نسخه‌های آینده برای جایگزینی راهکارهای موقت.

اما این تنها مشکل Metal نیست؛ در مقاله بعدی بررسی می‌کنیم که چگونه نشت حافظه در نسخه‌های جدیدتر، سرعت استنتاج را کاهش داده است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

هدف: مدل qwen3-embedding:0.6b.
محرک: ورودی‌های بیش از ۴,۰۰۰ توکن (Token) — یعنی تکه‌های کوچکی از متن مثل برش‌های یک کیک.
علت: خطای Segmentation Fault هنگام استفاده از شتاب‌دهنده گرافیکی Metal GPU در llama-server.

گام بعدی شما

دانگرید به نسخه ۰.۲۴.۰ از طریق Homebrew برای بازگرداندن پایداری سیستم.
تقسیم متن‌های ورودی به تکه‌های ۲,۰۰۰ کاراکتری و میانگین‌گیری از بردارهای حاصل.
نظارت بر انتشار پچ رسمی در نسخه‌های آینده برای جایگزینی راهکارهای موقت.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حد ۴,۰۰۰ توکنی در macOS 0.30.6: چرا مدل Qwen3 باعث کرش Metal GPU می‌شود؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران