اگر از مدلهای محلی برای تحلیل متنهای طولانی روی مک استفاده میکنید، سیستم شما در معرض یک توقف ناگهانی است. یک باگ بحرانی در نسخهی ۰.۳۰.۶ باعث میشود هر ورودی طولانی، کل پردازش گرافیکی شما را به زمین بزند.
این مشکل مستقیماً برنامهنویسانی را هدف قرار داده که از بردار معنایی (Embedding) — که مثل یک کارت شناسایی عددی برای هر واژه است تا مدل بفهمد کدام کلمات به هم شبیهاند — در محیطهای محلی استفاده میکنند. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای کوچک اشاره کردیم، پایداری در محیطهای لبه (Edge) همیشه چالشبرانگیز است.
به گزارش منتشر شده در ۷ ژوئن ۲۰۲۶، این خطا دقیقاً در نقطه اتصال /api/embed رخ میدهد. طبق مستندات فنی، این یک پسرفت (Regression) در نسخهی ۰.۳۰.۶ است که در نسخهی ۰.۲۴.۰ وجود نداشت. جزئیات فنی این شکست عبارتند از:
- هدف: مدل qwen3-embedding:0.6b.
- محرک: ورودیهای بیش از ۴,۰۰۰ توکن (Token) — یعنی تکههای کوچکی از متن مثل برشهای یک کیک.
- علت: خطای Segmentation Fault هنگام استفاده از شتابدهنده گرافیکی Metal GPU در llama-server.
این اتفاق برای شما به معنای قطعی ناگهانی در جریانهای کاری تولید بازیابیافزا (RAG) است؛ سیستمی که مثل دانشآموزی است که قبل از جواب دادن، اول کتاب را باز میکند تا دقیقتر پاسخ دهد. وقتی اسناد شما طولانی باشند، اپلیکیشن شما بدون هیچ هشدار قبلی کرش میکند و تمام محاسبات جاری از بین میرود.
گام بعدی شما
- دانگرید به نسخه ۰.۲۴.۰ از طریق Homebrew برای بازگرداندن پایداری سیستم.
- تقسیم متنهای ورودی به تکههای ۲,۰۰۰ کاراکتری و میانگینگیری از بردارهای حاصل.
- نظارت بر انتشار پچ رسمی در نسخههای آینده برای جایگزینی راهکارهای موقت.
اما این تنها مشکل Metal نیست؛ در مقاله بعدی بررسی میکنیم که چگونه نشت حافظه در نسخههای جدیدتر، سرعت استنتاج را کاهش داده است.
گفتگو