شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

اگر یک کسب‌وکار کوچک نرم‌افزاری را اداره می‌کنید، رویای جایگزینی اشتراک ۲۰۰ دلاری ماهانه Claude با یک پردازنده گرافیکی محلی وسوسه‌انگیز است، اما واقعیت ابزاری کاملاً متفاوت را پیش روی شما می‌گذارد. در ۱۸ ژوئن ۲۰۲۶، الکس الیس (Alex Ellis)، مؤسس و توسعه‌دهنده، با جزئیات شرح داد که چگونه مدل Qwen 3.6 27B در وظایف خاص با حریم خصوصی بالا ارزش زیادی خلق می‌کند، اما وقتی بدون نظارت روی پروژه‌های پیچیده کدنویسی رها شود، به‌طور فاجعه‌باری شکست می‌خورد. این گزارش، یک نگاه گذرا یا یادداشت یک آماتور نیست که مدلی با سرعت تک‌رقمی و پنجره متنی محدود ۳۲ هزار توکن را تست کرده باشد. همچنین توسط مدیرعامل مشهوری نوشته نشده که از داخل هواپیما درباره کدنویسی توئیت کند. این سفری است از سوی مؤسسی که «پوستش در بازی است» و یک کسب‌وکار نرم‌افزاری کوچک را اداره می‌کند، جایی که مدل‌های محلی ارزش واقعی اما مشروط خود را ثابت کرده‌اند.

زمینه: مسیر یک مؤسس

تجربه الیس ریشه در ساخت زیرساخت دارد. سفر او با OpenFaaS آغاز شد که در سال ۲۰۱۶ به‌طور کامل دستی ساخته شد. او بعداً در سال ۲۰۱۷ به VMware پیوست تا بودجه زمانی خود را تأمین کند و در نهایت در سال ۲۰۱۹ به سمت مدل شرکتی بوت‌استرپ (خودگردان) با هسته باز (open-core) حرکت کرد. امروز تیم کوچک او مجموعه‌ای از محصولات زیرساختی را مدیریت می‌کند که بر کارایی، کنترل و خودمختاری متمرکز هستند:

OpenFaaS: توابع بدون سرور (Serverless) روی زیرساخت شخصی شما.
SlicerVM: محیط‌های ایزوله (Sandboxes) هوش مصنوعی و «API گمشده برای لینوکس».
Actuated.com: اجرای خودمیزبان CI برای گیت‌هاب و گیت‌لب.
Inlets.com: تونل‌های HTTP/TCP خودمیزبان.

این محصولات با زبان Go نوشته شده‌اند و از ابزارهای سطح پایین لینوکس مانند کانتینرها، کوبرنتیز و میکرو-ماشین‌های مجازی Firecracker بهره می‌برند. همچنین شامل اجزای رابط کاربری مبتنی بر React، ابزارهای خط فرمان (CLI) و مهارت‌های عامل (agent skills) هستند. الیس از تکمیل خودکار ساده در VS Code تکامل یافت و به جایی رسید که ۱۲ ساعت در روز در tmux زندگی می‌کند؛ او حتی ابزار رایگان Superterm.dev را برای ردیابی جلسات و دریافت بازخورد بصری از عوامل کدنویسی ساخت.

این تغییر در حالی رخ می‌دهد که صنعت به یک نقطه عطف رسیده است. بین نوامبر ۲۰۲۵ و ژانویه ۲۰۲۶، مدل‌های پیشرو مانند Claude Opus قادر شدند تقریباً تمام کدنویسی دستی را مدیریت کنند و باعث شدند کدنویسی سنتی منسوخ به نظر برسد؛ کدنویسی دستی به همان سرعتی فاسد شد که شیر بیرون مانده در یخچال ترش می‌شود. هزینه این طرح‌های کدنویسی سطح بالا برای افراد روی حدود ۲۰۰ دلار در ماه تثبیت شد. اگرچه این هزینه با توجه به ارزش تولید شده قابل تحمل است، اما ریسک ایجاد «کلون‌های ویب‌کد شده» (vibecoded clones) افزایش یافته است؛ ایده‌ها اکنون می‌توانند یک‌شبه توسط هر کسی با یک اشتراک در یک کشور در حال توسعه کلون شوند. این اتفاق پیش از این برای محصول SlicerVM (که در سال ۲۰۲۲ دستی نوشته شده بود) و Superterm (که در سال ۲۰۲۶ جدید بود و ۱۰۰٪ توسط عوامل کدنویسی نوشته شد) رخ داده است. در بازاری که هزینه نرم‌افزار به سمت صفر می‌رود، «رایگان و به اندازه کافی خوب» می‌تواند تنها چیزی باشد که اهمیت دارد.

برای کسب‌وکارهایی که داده‌های حساس سازمانی را مدیریت می‌کنند، راحتی فضای ابری ریسک‌های پذیرفته‌ناپذیر تامین‌کننده و نشت حریم خصوصی را به همراه دارد. حذف ناگهانی مدل Fable 5 آنتروپیک یک‌شبه برای کاربران خارج از ایالات متحده، این بی‌ثباتی را برجسته کرد. برای تیمی که محصولاتی مانند OpenFaaS، SlicerVM، Actuated.com و Inlets.com را مدیریت می‌کند، حاکمیت (Sovereignty) یک ارزش محوری است. مدل‌های محلی پاسخ به این سوال هستند: «اگر آزمایشگاه‌های پیشرو کار X را انجام دهند چه می‌شود؟»

سرمایه‌گذاری سخت‌افزاری

الیس برای پر کردن این شکاف، حدود ۱۲,۰۰۰ دلار برای یک کارت گرافیک RTX 6000 Pro Blackwell با ۹۶ گیگابایت VRAM هزینه کرد. این سخت‌افزار اجازه می‌دهد تیم مدل‌ها را با طول کامل متن و بدون کوانتیزاسیون (Quantization) تهاجمی — که اغلب در سیستم‌های رده مصرف‌کننده دیده می‌شود — اجرا کنند. زمانی که ایده خرید کارت دوم مطرح شد، قیمت به حدود ۱۵,۴۰۰ دلار افزایش یافته بود و توجیه گسترش بیشتر سخت‌افزاری را دشوار کرد. افزودن کارت دوم یک فرآیند ساده «جای‌گذاری در اسلات» نیست؛ بلکه شامل دغدغه‌های پیچیده در مورد مسیرهای PCI، پهنای باند، فاصله بین کارت‌ها و فشار شدید روی منبع تغذیه (PSU) است.

کیون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

به نقل از الیس، این سخت‌افزار ظرف دو تا سه ماه هزینه خود را بازگرداند. دلیل اصلی آن بازیابی درآمد بود: تیم او با تغذیه یک پایگاه داده تله‌متری به یک مدل محلی، متوجه شد مشتری‌ای به مدت ۱۲ ماه، لایسنس‌های خود را کمتر گزارش کرده و حدود ۴ تا ۵ برابر کمتر از مبلغ واقعی پرداخت کرده است. این بازیابی درآمد به تنهایی هزینه کارت گرافیک را پوشش داد. این کار در فضای ابری غیرممکن بود، زیرا ارسال دامپ‌های تله‌متری یا خروجی‌های تشخیصی (diag) مشتری به یک ارائه‌دهنده ابری، صرف‌نظر از سیاست‌های نگهداری ۳۰ روزه، احتمالاً قراردادهای سازمانی را نقض می‌کرد. حتی دوره‌های نگهداری ۳۰ روزه ChatGPT Pro و Claude Max اغلب برای قراردادهای سخت‌گیرانه مشتریان ناکافی هستند.

شکاف قابلیت اطمینان

یافته اصلی این است که مدل‌های محلی در عمل «نزدیک به سطح Opus» نیستند، حتی اگر بنچمارک‌ها خلاف این را بگویند. مدل Qwen 3.6 27B در بنچمارک SWE-Bench Verified امتیاز ۷۷.۲٪ دارد، در حالی که Claude Opus 4.8 به ۸۸.۶٪ رسیده است. این فاصله ۱۲ درصدی، یک شکاف عملکردی عظیم در خودمختاری را پنهان می‌کند. بنچمارک‌ها هدفی متغیر هستند و یک مدل می‌تواند برای کسب امتیاز بالاتر تنظیم (Tune) شود. علاوه بر این، بنچمارک SWE-Bench Verified بر روی مسائل پایتون تمرکز دارد. پایتون با وجود Threadها و Async، عمدتاً تک‌رشته‌ای است. در مقابل، این تیم سیستم‌های توزیع‌شده را با Go می‌نویسد، جایی که کانال‌ها (Channels)، کانتکست‌ها و استراکت‌ها در یک دامنه اجرای بزرگ گسترده شده‌اند و چالشی بسیار سخت‌تر ایجاد می‌کنند.

شکست در حالت بدون نظارت: مدل‌های پیشرو می‌توانند ۱۵ دقیقه روی یک باگ پیچیده کار کنند و یک PR آماده ادغام تحویل دهند. برای مثال، یک پرامپت درباره اتمام FDها در Slicer VMها و مشکلات احتمالی VSock به Claude اجازه می‌دهد تصویر را تحلیل کند، راه حل را پیشنهاد دهد («شما دارید X را انجام می‌دهید، باید Y را انجام دهید») و آن را به‌طور کامل روی یک مینی‌پی‌سی پیاده‌سازی کند. این یک چرخه بسیار کارآمد برای تیمی کوچک است که چندین محصول را مدیریت می‌کند.
مشکل حلقه‌زدگی (Looping): مدل‌های محلی مکرراً وارد «حلقه‌های بی‌نهایت» می‌شوند. وقتی از Qwen خواسته شد چه دستوراتی به faas-cli اضافه کند، گزینه‌های معقولی پیشنهاد داد اما سپس همان لیست (import, export, scale, rename, diff) را بارها و بارها تکرار کرد و برای نیم ساعت ۶۰۰ وات برق سوزاند. الیس این وضعیت را با دقت در آب‌بندی یک چاقوی علامت‌گذاری ژاپنی مقایسه می‌کند؛ اگر یک طیف از رنگ مورد نیاز فراتر بروید، باید کل فرآیند عملیات حرارتی را از ابتدا شروع کنید.
ریسک توهم: در یک مورد، Qwen شروع به خواندن تک‌تک فایل‌های یک ماشین کرد، پنجره متنی‌اش را پر کرد و سپس نام فایل‌ها و فراخوانی‌های ابزار را توهم زد و ~/faas-netes را به ~/faaned تغییر داد. این اتفاق زمانی افتاد که از مدل خواسته شد یک گزارش جرم‌شناسی (Forensic) روی یک ماشین تکمیل کند؛ وظیفه‌ای که Claude بدون هیچ مشکلی انجام می‌داد.
خطاهای محاسباتی و منطقی: در تحلیل تله‌متری، مدل در محاسبات ساده شکست خورد و عدد ۲۷.۳ هزار را ۲۷۳ هزار خواند. همچنین به اشتباه استنباط کرد که یک مشتری احتمالاً ریزش (Churn) می‌کند چون توابع کمی داشت، در حالی که نادیده گرفت آن توابع هر روز بارها اجرا می‌شدند. در نتیجه، اغلب بهتر است مدل‌های محلی را روی تحلیل متمرکز کنید، نه تفسیر.

کیوون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

کاربردهای باارزش محلی

مدل‌های محلی زمانی می‌درخشند که وظیفه محدود و داده‌ها حساس باشند. الیس از آن‌ها برای موارد زیر استفاده می‌کند:

پشتیبانی مشتری بدون دردسر: استفاده از ابزار CLI به نام 'diag' برای ثبت یک اسنپ‌شات کامل از نصب OpenFaaS روی کوبرنتیز. این دامپ‌ها توسط یک مدل محلی ایزوله (Air-gapped) در یک ماشین مجازی موقت که توسط Slicer ایجاد شده، پردازش می‌شوند.
تحلیل تله‌متری: پردازش حجم‌های بزرگ داده‌های مشتری برای یافتن الگوهای پرداخت کمتر یا استفاده، بدون نشت مالکیت معنوی (IP) به ارائه‌دهندگان ابری. تیم گاهی از GPT یا Opus برای نوشتن یک شمای AGENTS.md برای جدول تله‌متری استفاده می‌کند و سپس مدل محلی از آن پیروی می‌کند.
توضیح سریع کد: خواندن و توضیح سریع کدهای موجود. اگرچه آن‌ها در نوشتن هم‌زمانی (Concurrency) پیچیده در Go مشکل دارند، اما می‌توانند CLIهای جدید را به پروژه‌هایی مانند arkade کارآمدتر از مشارکت‌کنندگان انسانی اضافه کنند، به شرطی که یک فایل AGENTS.md دقیق دریافت کنند.
راه‌اندازی محیط: یک عامل محلی توانست Slicer را از صفر روی یک مینی‌پی‌سی جدید نصب کند و بازخوردهای کاربردی درباره Slicer CLI ارائه دهد که بعداً ادغام شدند.

کیون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

بهینه‌سازی فنی

برای به حداکثر رساندن عملکرد، تیم از llama.cpp که از سورس ساخته شده تا از GPUهای انویدیا پشتیبانی کند، استفاده می‌کند. آن‌ها از تله‌های RTX 3090 دوری کردند، جایی که قبلاً مجبور بودند بیش از حد کوانتیزه کنند (Q4_0 روی کلیدها/مقادیر) و با ناپایداری سخت‌افزاری مواجه شدند که نیاز به چرخه کامل برق AC و جدا کردن کابل برق برای ۳۰ ثانیه داشت تا رفع شود. آن‌ها دریافتند که vLLM با NVLink (به قیمت ۱۷۵ پوند) و موازی‌سازی تنسور، در واقع ۳ توکن بر ثانیه کندتر از llama.cpp در هنگام تولید بود.

آن‌ها از Speculative Decoding از طریق MTP استفاده می‌کنند که سرعت تولید را از ۶۷ توکن بر ثانیه پایدار به ۱۳۰ تا ۲۰۰ توکن بر ثانیه افزایش می‌دهد. پیکربندی خاص آن‌ها برای Qwen 3.6 27B شامل موارد زیر است:

مدل: unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q8_K_XL
پنجره متنی: ۲۶۲,۱۴۴ توکن (-c 262144) با انواع کش f16 برای کلیدها و مقادیر (--cache-type-k f16 --cache-type-v f16).
پارامترها: دمای ۰.۶، top-p ۰.۹۵، top-k ۲۰، min-p ۰.۰، جریمه حضور (presence-penalty) ۱.۱ و بودجه استدلالی ۲۰۴۸.
اجرا: ۱۶ رشته (Thread)، اندازه دسته (Batch size) ۴۰۹۶ و -ngl 99 برای انتقال بار به GPU.

آن‌ها همچنین روی مدل‌های fine-tune شده مانند Qwopus آزمایش کردند که ردپاهای زنجیره تفکر (Chain of Thought) را روی Qwen می‌لایه می‌کند. با این حال، دریافتند که برای Qwopus، بهترین نتایج زمانی حاصل می‌شود که «تفکر» خاموش و دما بالاتر (۰.۸۵ تا ۱.۰) باشد. وقتی تفکر دوباره فعال شد، متوجه افزایش رفتار حلقوی شدند. این حلقه‌زدگی اغلب از نوع دوم است: جایی که مدل در لبه توانایی خود گیر کرده اما از درخواست کمک خودداری می‌کند. این موضوع زمانی دیده شد که Qwen سعی داشت --json را به دستورات faas-cli اضافه کند؛ شروع خوبی داشت اما در نهایت فایل را خراب کرد و وارد حلقه‌ای از شکایت شد که نمی‌داند چگونه مشکل را حل کند.

بار عملیاتی

انتقال به هوش مصنوعی محلی، مشکل «اشتراک» را به مشکل «عملیات» تبدیل می‌کند. تیم مجبور شد ارائه‌دهنده‌ای سفارشی به نام Toilgate بسازد تا مسیریابی مدل، هویت و کنترل دسترسی را مدیریت کند. این کار برای جلوگیری از «تاخیر نوسانی» (thrashing latency) است؛ جایی که دو عامل که به یک نمونه با زمینه‌های غیرمرتبط ضربه می‌زنند، پیشوندهای کش‌شده یکدیگر را باطل می‌کنند و مدل مجبور می‌شود کل پرامپت را از ابتدا پردازش کند.

آن‌ها هزینه‌های فیزیکی را با استفاده از Shelly Plus Plugs مانیتور می‌کنند. RTX 6000 Pro در هنگام استنتاج ۶۰۰ وات مصرف می‌کند و نسبتاً بی‌صدا است، در حالی که یک سیستم دوگانه ۳۰۹۰ نزدیک به ۷۵۰ وات مصرف می‌کند و بسیار پرصدا است. این تغییر مستلزم مدیریت هویت، اندازه‌گیری، سهمیه‌ها و نظارت بر برق است — در واقع تبدیل استفاده از AI به یک پروژه زیرساختی محلی. مقایسه این مورد با قیمت‌گذاری API مدل GPT-5.5 شرکت OpenAI مقایسه نادرستی است؛ بلکه بحث بر سر هزینه کارهایی است که برای مدل‌های ابری نامناسب هستند. این موضوع به‌ویژه با توجه به تغییر رویکرد گیت‌هاب/مایکروسافت/آزور از محدودیت‌های ثابت درخواست (مانند ۱۵۰۰ درخواست برای ۳۹ دلار در ماه) به سمت قیمت‌گذاری مبتنی بر توکن اهمیت دارد. برای استفاده‌های سنگین، تحلیل‌های عاملی یا قابلیت‌های SaaS در محصول، هزینه توکن‌ها می‌تواند به نقطه شکست تبدیل شود — همان‌طور که در Uber دیده شد، جایی که هزینه هر توسعه‌دهنده برای هر ابزار به ۱۵۰۰ دلار در ماه محدود شد.

برای تیمی کوچک که محصولاتی مانند OpenFaaS، SlicerVM و Inlets را مدیریت می‌کند، این سبک تبادل (Trade-off) می‌ارزد. مدل محلی مانند یک «تراش کوچک» متخصص عمل می‌کند — عالی برای کارهای دقیق و خصوصی — در حالی که مدل ابری به عنوان «چکش آهنگری» سنگین برای طراحی‌های معماری باقی می‌ماند. همان‌طور که الیس اشاره می‌کند، در حالی که مدل‌های 70B اغلب بیش از حد قدیمی هستند و مدل‌های 35-A3B (که فقط ۳ میلیارد پارامتر فعال در هنگام تولید دارند) کیفیت زیادی را فدای سرعت می‌کنند، مدل‌های متراکم 27B یک میان‌راه قابل اتکا، هرچند مشروط، فراهم می‌کنند. مدل‌های بزرگ دیگر مانند GLM 5.2، Kimi 2.7، Minimax M3 و Deepseek V4 Flash برای بارگذاری به ۴ تا ۶ کارت RTX 6000 Pro نیاز دارند که آن‌ها را از محدوده خارج می‌کند. امروز، مدل‌های 27B برای تمام روز کدنویسی Go مناسب نیستند؛ دانش محدود آن‌ها در بررسی‌های کد (Code Reviews) جایی که توهم شرایط رقابتی (Race conditions) می‌زنند و نمی‌توانند کوتاه و مختصر باشند، نمایان می‌شود. مدل نسبتاً غیرجذاب Grok Coder Fast 1 ارزان‌تر و سریع‌تر بود و ماه‌ها به خوبی به تیم خدمت کرد تا اینکه منسوخ شد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه: مسیر یک مؤسس

OpenFaaS: توابع بدون سرور (Serverless) روی زیرساخت شخصی شما.
SlicerVM: محیط‌های ایزوله (Sandboxes) هوش مصنوعی و «API گمشده برای لینوکس».
Actuated.com: اجرای خودمیزبان CI برای گیت‌هاب و گیت‌لب.
Inlets.com: تونل‌های HTTP/TCP خودمیزبان.

سرمایه‌گذاری سخت‌افزاری

کیون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

شکاف قابلیت اطمینان

شکست در حالت بدون نظارت: مدل‌های پیشرو می‌توانند ۱۵ دقیقه روی یک باگ پیچیده کار کنند و یک PR آماده ادغام تحویل دهند. برای مثال، یک پرامپت درباره اتمام FDها در Slicer VMها و مشکلات احتمالی VSock به Claude اجازه می‌دهد تصویر را تحلیل کند، راه حل را پیشنهاد دهد («شما دارید X را انجام می‌دهید، باید Y را انجام دهید») و آن را به‌طور کامل روی یک مینی‌پی‌سی پیاده‌سازی کند. این یک چرخه بسیار کارآمد برای تیمی کوچک است که چندین محصول را مدیریت می‌کند.
مشکل حلقه‌زدگی (Looping): مدل‌های محلی مکرراً وارد «حلقه‌های بی‌نهایت» می‌شوند. وقتی از Qwen خواسته شد چه دستوراتی به faas-cli اضافه کند، گزینه‌های معقولی پیشنهاد داد اما سپس همان لیست (import, export, scale, rename, diff) را بارها و بارها تکرار کرد و برای نیم ساعت ۶۰۰ وات برق سوزاند. الیس این وضعیت را با دقت در آب‌بندی یک چاقوی علامت‌گذاری ژاپنی مقایسه می‌کند؛ اگر یک طیف از رنگ مورد نیاز فراتر بروید، باید کل فرآیند عملیات حرارتی را از ابتدا شروع کنید.
ریسک توهم: در یک مورد، Qwen شروع به خواندن تک‌تک فایل‌های یک ماشین کرد، پنجره متنی‌اش را پر کرد و سپس نام فایل‌ها و فراخوانی‌های ابزار را توهم زد و ~/faas-netes را به ~/faaned تغییر داد. این اتفاق زمانی افتاد که از مدل خواسته شد یک گزارش جرم‌شناسی (Forensic) روی یک ماشین تکمیل کند؛ وظیفه‌ای که Claude بدون هیچ مشکلی انجام می‌داد.
خطاهای محاسباتی و منطقی: در تحلیل تله‌متری، مدل در محاسبات ساده شکست خورد و عدد ۲۷.۳ هزار را ۲۷۳ هزار خواند. همچنین به اشتباه استنباط کرد که یک مشتری احتمالاً ریزش (Churn) می‌کند چون توابع کمی داشت، در حالی که نادیده گرفت آن توابع هر روز بارها اجرا می‌شدند. در نتیجه، اغلب بهتر است مدل‌های محلی را روی تحلیل متمرکز کنید، نه تفسیر.

کیوون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

کاربردهای باارزش محلی

پشتیبانی مشتری بدون دردسر: استفاده از ابزار CLI به نام 'diag' برای ثبت یک اسنپ‌شات کامل از نصب OpenFaaS روی کوبرنتیز. این دامپ‌ها توسط یک مدل محلی ایزوله (Air-gapped) در یک ماشین مجازی موقت که توسط Slicer ایجاد شده، پردازش می‌شوند.
تحلیل تله‌متری: پردازش حجم‌های بزرگ داده‌های مشتری برای یافتن الگوهای پرداخت کمتر یا استفاده، بدون نشت مالکیت معنوی (IP) به ارائه‌دهندگان ابری. تیم گاهی از GPT یا Opus برای نوشتن یک شمای AGENTS.md برای جدول تله‌متری استفاده می‌کند و سپس مدل محلی از آن پیروی می‌کند.
توضیح سریع کد: خواندن و توضیح سریع کدهای موجود. اگرچه آن‌ها در نوشتن هم‌زمانی (Concurrency) پیچیده در Go مشکل دارند، اما می‌توانند CLIهای جدید را به پروژه‌هایی مانند arkade کارآمدتر از مشارکت‌کنندگان انسانی اضافه کنند، به شرطی که یک فایل AGENTS.md دقیق دریافت کنند.
راه‌اندازی محیط: یک عامل محلی توانست Slicer را از صفر روی یک مینی‌پی‌سی جدید نصب کند و بازخوردهای کاربردی درباره Slicer CLI ارائه دهد که بعداً ادغام شدند.

کیون محلی نسخه ضعیف‌تر اوپوس نیست، ابزاری متفاوت است

بهینه‌سازی فنی

مدل: unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q8_K_XL
پنجره متنی: ۲۶۲,۱۴۴ توکن (-c 262144) با انواع کش f16 برای کلیدها و مقادیر (--cache-type-k f16 --cache-type-v f16).
پارامترها: دمای ۰.۶، top-p ۰.۹۵، top-k ۲۰، min-p ۰.۰، جریمه حضور (presence-penalty) ۱.۱ و بودجه استدلالی ۲۰۴۸.
اجرا: ۱۶ رشته (Thread)، اندازه دسته (Batch size) ۴۰۹۶ و -ngl 99 برای انتقال بار به GPU.

بار عملیاتی

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

زمینه: مسیر یک مؤسس

سرمایه‌گذاری سخت‌افزاری

شکاف قابلیت اطمینان

کاربردهای باارزش محلی

بهینه‌سازی فنی

بار عملیاتی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

زمینه: مسیر یک مؤسس

سرمایه‌گذاری سخت‌افزاری

شکاف قابلیت اطمینان

کاربردهای باارزش محلی

بهینه‌سازی فنی

بار عملیاتی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

زمینه: مسیر یک مؤسس

سرمایه‌گذاری سخت‌افزاری

شکاف قابلیت اطمینان

کاربردهای باارزش محلی

بهینه‌سازی فنی

بار عملیاتی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف اعتماد در کدنویسی: مدل‌های محلی Qwen در تکالیف پیچیده شکست می‌خورند

زمینه: مسیر یک مؤسس

سرمایه‌گذاری سخت‌افزاری

شکاف قابلیت اطمینان

کاربردهای باارزش محلی

بهینه‌سازی فنی

بار عملیاتی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران