چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

اگر امروز برای اشتراک‌های سطح بالای هوش مصنوعی هزینه می‌کنید، احتمالاً برای ۹۰ درصد کارهای روزمره خود، ابزاری بیش از حد پیچیده و گران در دست دارید. گروهی از توسعه‌دهندگان اکنون در حال ترک عامل‌های ابری هستند تا از یک استک محلی با محوریت Qwen 3.6 و Gemma 4 استفاده کنند؛ آن‌ها «نابغه معماری» مدل‌های ابری را با حریم خصوصی مطلق و هزینه صفر برای هر توکن معاوضه کرده‌اند.

این چرخش در حالی رخ می‌دهد که شکاف بین مدل‌های پیشرو و مدل‌های وزن‌باز (Open Weights) — یعنی مدل‌هایی که «دستور پخت» یا همان پارامترهای آن‌ها علناً منتشر شده تا هر کسی بتواند آن‌ها را اجرا کند — به‌شدت کم شده است. سال‌ها تصور می‌شد تنها خوشه‌های عظیم و مورد حمایت شرکت‌های بزرگ می‌توانند کدهای پیچیده را مدیریت کنند. اما جامعه «محلی‌گرایان» ثابت کرده‌اند که با سخت‌افزار مناسب و ابزارهای مهارکننده (Harnesses)، یک مدل ۳۰ میلیارد پارامتری می‌تواند مانند یک برنامه‌نویس جونیور بسیار توانمند عمل کند.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، کنترل کامل بر داده‌ها در محیط‌های توسعه، اولویتی است که اکنون برای بسیاری از شرکت‌ها بر سرعتِ خام مدل‌ها پیشی گرفته است.

جزئیات سخت‌افزاری استک محلی

اجرای مؤثر این مدل‌ها نیازمند انتخاب‌های سخت‌افزاری خاص است. بسیاری از توسعه‌دهندگان مدل‌های Apple Mac Studio یا MacBook Pro را به دلیل حافظه یکپارچه (Unified Memory) انتخاب می‌کنند. پیکربندی‌هایی با ۱۲۸ گیگابایت رم به کاربران اجازه می‌دهد مدل‌های بزرگتر را بدون برخورد با گلوگاه‌های محدودیت VRAM سنتی بارگذاری کنند. برخی کاربران نیز از مک‌بوک‌هایی با ۳۶ گیگابایت رم برای اجراهای سریع‌تر با پارامترهای کمتر استفاده می‌کنند.

گروهی دیگر در حال ساخت سیستم‌های سفارشی با استفاده از کارت‌های AMD Radeon، به‌ویژه مدل 7900XTX هستند و اغلب از llama.cpp با Vulkan بهره می‌برند. به طرز متناقضی، گزارش شده است که Vulkan در برخی تنظیمات سریع‌تر از ROCm عمل می‌کند. کاربران سطح بالا، سیستم‌های دوگانه RTX 3090 (با هزینه تقریبی ۴۴۰۰ دلار برای هر دو کارت) را برای به حداکثر رساندن VRAM و توان پردازشی مستقر کرده‌اند. آن‌ها در مدل‌های MoE با کوانتیزاسیون UD-Q4_K_XL به سرعت‌هایی در حدود ۱۵۰ توکن بر ثانیه رسیده‌اند. یک کاربر اشاره کرد که یک کارت ۳۰۹۰ دست‌دوم را می‌توان با قیمت حدود ۷۰۰ دلار (با احتساب ارسال) پیدا کرد.

برای کسانی که بودجه محدودی دارند، یک Mac Mini مدل ۲۰۱۸ بازسازی‌شده با ۶۴ گیگابایت رم DDR4 یک گزینه است، هرچند تراشه‌های M1/M2/M4 با حافظه یکپارچه نقطه ورود مدرن محسوب می‌شوند. یک Mac Mini M4 Pro با ۴۸ گیگابایت رم یکپارچه (حدود ۲۰۰۰ دلار) به عنوان یک دستگاه استنتاج اقتصادی توصیه می‌شود. حتی سخت‌افزارهای قدیمی نیز کاربرد دارند؛ یک کاربر با موفقیت مدل Qwen 3.5 9B را روی یک سرور دو-زئون ۱۰ ساله با ۲۵۶ گیگابایت رم DDR4 اجرا کرد و یک تسک تبدیل ویدئو را در ۳ دقیقه به پایان رساند، چرا که هوش مصنوعی توانست سوئیچ‌های ffprobe را در لحظه بهینه کند.

نقطه بهینه مدل‌ها

طبق گزارش‌های منتشر شده در Hacker News تا ژوئن ۲۰۲۶، نقطهٔ بهینه برای کدنویسی محلی در حال حاضر مدل Qwen 3.6 35B-A3B است. این مدل از معماری مخلوط خبرگان (MoE) — شبیه تیمی از متخصصان که فقط فرد مورد نیاز برای هر سؤال فراخوانده می‌شود — بهره می‌برد. با تنها ۳ میلیارد پارامتر فعال، این مدل سرعت خیره‌کننده‌ای دارد و برای کدنویسی عامل‌محور کاملاً قابل اعتماد است.

ترجیحات مدل‌ها به شرح زیر است:

Qwen 3.6 35B-A3B: انتخاب اول برای کدنویسی عامل‌محور به دلیل تعادل بین سرعت و هوشمندی. در برخی تست‌ها، مانند یک پروژه کوچک سیستم‌عامل مرورگر، این مدل عملکردهای کاربردی بسیار بیشتری نسبت به Claude 4 Opus تولید کرد.
Qwen 3.6 27B: برای کارهای متراکم کدنویسی که در آن‌ها دقت بالاتر از سرعت (تعداد توکن در ثانیه) اهمیت دارد. برخی معتقدند افزایش دقت، کندتر بودن سرعت نسبت به مدل ۳۵ میلیاردی را توجیه می‌کند.
Qwen 3.5 122B-A10B: برای کارهای معماری پیچیده استفاده می‌شود، هرچند به دلیل ۱۰ میلیارد پارامتر فعال، به‌طور قابل‌توجهی کندتر است. این مدل ممکن است در ارزیابی‌های خاص (مانند swebench) کمی بهتر از مدل ۳۵ میلیاردی عمل کند و با سرعت تقریبی ۳۰ توکن در ثانیه (در مقابل ۵۵ توکن در ثانیه مدل ۳۵ میلیاردی) اجرا شود.
Gemma 4 31B: مورد استفاده برای چت‌های عمومی و ترجمه.
Gemma 4 12B: گزینهٔ اصلی برای کارهای مرتبط با صوت.
سایر آزمایش‌ها: کاربران در حال تست مدل‌های Nemotron 3 Super 122B-A12B، مدل Step 3.7 Flash (که برخی معتقدند در ارزیابی‌های واقعی کدبیس از Qwen 3.6 27B بهتر است)، Minimax M2.7 و GPT-OSS 120B برای نیازهای با سرعت بالا و هوشمندی کمتر هستند.

نقش هارنس (Harness)

سخت‌افزار و مدل‌ها تنها نیمی از مسیر هستند؛ «هارنس» — یعنی نرم‌افزاری که تعامل عامل با کد را مدیریت می‌کند — حیاتی است. Pi (pi.dev) به دلیل قابلیت گسترش بالا و مبتنی بودن بر API، به یکی از محبوب‌ترین‌ها تبدیل شده است. برای حفظ حریم خصوصی مطلق، توسعه‌دهندگان Pi را در محیط‌های کانتینری و ایزوله (Sandbox) اجرا می‌کنند و اغلب دسترسی به شبکه را محدود کرده یا از ابزارهایی مانند petsitter (یک اعتبارسنج واسط) برای جلوگیری از مشکلات امنیتی استفاده می‌کنند.

برخی کاربران از فورک oh-my-pi در هارنس pi.dev استفاده می‌کنند که ادعا می‌کند فراخوانی‌های ویرایشی (edit calls) را از طریق یک فرمت وصله‌زنی (patching) منحصر‌به‌فرد بهبود می‌بخشد. دیگران با OpenCode آزمایش کرده‌اند، هرچند برخی اشاره کردند که برخی هارنس‌ها در هر نوبت «پرامپت سیستم» را تغییر می‌دهند که باعث شکست عملکرد KV cache می‌شود.

جزئیات فنی و بهینه‌سازی‌ها

برای اینکه مدل‌های محلی در سطح یک «عامل» (Agent) عمل کنند، پیکربندی‌های فنی خاصی لازم است:

حافظه KV Cache و کش پرامپت:

مدل‌های محلی اغلب در هر نوبت، متن (Context) را دوباره پردازش می‌کنند. این مشکل معمولاً به دلیل نبود قابلیت «حفظ تفکر» در مدل‌های قدیمی است که مدل را مجبور می‌کند پس از حذف استدلال‌ها، فراخوانی‌های ابزار را دوباره پردازش کند.
مدل Qwen 3.6 از حفظ تفکر پشتیبانی می‌کند. کاربران باید مقدار chat-template-kwargs = {"preserve_thinking": true} را در فایل models.ini تنظیم کنند یا llama.cpp را با فلگ مربوطه اجرا کنند.
این کار مانع از حذف ردپای استدلال در طول فراخوانی‌های متناوب ابزار می‌شود و نیاز به محاسبه مجدد KV cache در هر نوبت را از بین می‌برد.
کاربران باید مطمئن شوند که هارنس آن‌ها «فقط-افزودنی» (append-only) است تا محاسبات مجدد کش تحریک نشود. ابزارهایی مانند Aperture از Tailscale می‌توانند برای ثبت و مقایسه درخواست‌ها جهت یافتن این باگ‌ها استفاده شوند.
برخی مشکلات مربوط به واگرایی توکنایزر است؛ برای مثال، توکن‌هایی که به‌صورت خودرگرسیو تولید می‌شوند (مانند "pre" و "fill") ممکن است در مرحله prefill به عنوان یک توکن واحد ("prefill") تحلیل شوند و باعث واگرایی و محاسبه مجدد کش گردند.

استراتژی‌های کوانتیزاسیون:

کوانتیزاسیون بالاتر (مثلاً Q8) برای جلوگیری از افتادن مدل در حلقه‌های تکراری و کاهش «تلاطم» (Churn) استفاده می‌شود که با وجود استنتاج خام کندتر، در مجموع زمان کمتری می‌گیرد.
برخی کاربران دریافتند که استفاده از F16 برای بخش K از KV cache و Q8 برای بخش V، بسیاری از حلقه‌های تکراری را حذف می‌کند.
حساسیت به کوانتیزاسیون بالاست؛ برای مثال، در Step 3.7 Flash پس‌رفت‌هایی در llama.cpp دیده شده که در آن برخی کوانت‌ها نتایج KLD و Perplexity بدتری نسبت به قبل تولید می‌کنند.

مدیریت پنجره متنی (Context Window):

در حالی که Qwen 3.6 می‌تواند ۲۵۶ هزار توکن را مدیریت کند، کاربران اغلب آن را به ۱۲۸ هزار محدود می‌کنند تا در ۱۶ گیگابایت VRAM جای بگیرد.
دستور /new در Pi برای پاک‌سازی متن در کارهای ساده استفاده می‌شود و دستور /tree به کاربران اجازه می‌دهد به نقطه‌ای قبل از یک سری فراخوانی‌های ناموفق ابزار بازگردند.
برخی توسعه‌دهندگان پنجره‌های ۶۵ هزار توکنی را بسیار کوچک می‌بینند، زیرا خواندن یک ساختار فایل پیچیده می‌تواند از این حد فراتر رود و پنجره‌های ۲۰۰ هزار توکن به بالا را ترجیح می‌دهند.

شکست در فراخوانی ابزارها:

مدل‌های محلی اغلب با ابزار «ویرایش» (edit) مشکل دارند و به‌دلیل عدم تطابق فاصله‌های خالی (whitespace) یا فضاهای انتهایی شکست می‌خورند. مدل ممکن است ۵ یا ۶ بار در ویرایش یک تابع ۵ خطی در یک فایل ۲۵۰ خطی شکست بخورد.
یک راهکار پیشنهادی، ارائه یک مهارت با استفاده از دستور sed 's/( )*$//g' برای پاک‌سازی فضاهای خالی انتهایی است.
به‌روزرسانی فایل AGENTS.md برای محدود کردن «ویرایش» (در مقابل بازنویسی کامل) نیز می‌تواند این شکست‌ها را کاهش دهد.
برخی مدل‌ها در حلقه‌های تفکر طولانی گیر می‌کنند و گاهی سه برابر بیشتر از یک مدل بسته پیشرو توکن مصرف می‌کنند که به‌ویژه در سخت‌افزارهای کندتر مانند مک‌بوک‌ها آزاردهنده است.

محلی در مقابل پیشرو: شکاف واقعیت

مقایسه یک عامل Qwen 3.6 محلی با Claude 4 Opus، شبیه مقایسه یک برنامه‌نویس جونیور باهوش با یک معمار ارشد است. یک مدل پیشرو می‌تواند یک معماری پیچیده را «طراحی» کند، در حالی که یک مدل محلی به دستورات دقیق و اتمیک (ریز) نیاز دارد.

مدل‌های محلی اغلب در موارد زیر شکست می‌خورند:

طراحی معماری سطح بالا بدون یک مشخصات (Spec) دقیق. اگر فرضیات باز بمانند، آن‌ها راحت‌ترین مسیر را انتخاب می‌کنند (مثلاً قرار دادن CSS مستقیماً در HTML) به جای بهترین مسیر معماری.
پرداخت ظریف رابط کاربری (UI) و «سلیقه» در طراحی وب، جایی که Opus همچنان برتر است.
مدیریت کدبیس‌های عظیم بدون راهنمایی‌های جراحی‌گونه و تکه‌تکه.

با این حال، برای «کارهای طاقت‌فرسا» — مانند نوشتن Unit Testها در F#، بازسازی توابع کوچک یا خودکارسازی تسک‌های CLI — مدل‌های محلی سرعت توسعه را ۵ برابر می‌کنند. یک کاربر اشاره کرد که اگرچه Opus ممکن است سرعت را ۱۵ برابر کند، اما افزایش ۵ برابری توسط یک مدل رایگان و آفلاین همچنان «شگفت‌انگیز» است.

اقتصاد حریم خصوصی

برای کسانی که در صنایع تحت نظارت هستند (مانند سازمان‌های اتحادیه اروپا با دستورالعمل‌های مبهم هوش مصنوعی)، هزینه یک Mac Studio یک سرمایه‌گذاری یک‌باره (CapEx) است که هزینه‌های عملیاتی (OpEx) اشتراک‌های ماهانه و ریسک نشت داده‌های شرکتی را حذف می‌کند. این یک حرکت استراتژیک است تا اطمینان حاصل شود که کد منبع هرگز دستگاه را ترک نمی‌کند.

در حالی که برخی استدلال می‌کنند اشتراک ۱۰۰ دلاری در ماه ارزان‌تر از سخت‌افزار ۲۰۰۰ دلاری است، دیگران اشاره می‌کنند که سخت‌افزار یک پوشش در برابر افزایش قیمت‌های آتی توسط ارائه‌دهندگان ابری است. برای مثال، استفاده از Gemini 3 Flash طی ۸ سال ممکن است از هزینه یک مک استودیو ۱۲۸ گیگابایتی بیشتر نشود، اما «بهای حریم خصوصی» بالاست. این ترجیح CapEx بر OpEx، آرامش خاطر ایجاد می‌کند که تنظیمات ناگهان تغییر نمی‌کنند یا در دسترس نخواهند بود.

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

این روند نشان‌دهنده ظهور یک استراتژی هوش مصنوعی «لایه‌بندی شده» است. به جای تکیه بر یک مدل همه‌فن‌حریف، توسعه‌دهندگان از یک مدل پیشرو گران‌قیمت (مانند Claude Opus) برای طراحی یک برنامه اجرای دقیق در قالب Markdown استفاده می‌کنند و سپس آن برنامه را برای اجرای تکه‌تکه کد به یک مدل محلی می‌سپارند. این روش اغلب با ابزارهایی مانند Superpowers ترکیب می‌شود تا انتقال راحت‌تر شود.

این رویکرد نقاط قوت هر دو را به حداکثر می‌رساند: مدل پیشرو «سلیقه» و معماری را فراهم می‌کند و مدل محلی اجرای حجیم، خصوصی و رایگان را بر عهده می‌گیرد. این امر نقش توسعه‌دهنده را از «کدنویسی بر اساس حس» (Vibe-coding) به شکلی دقیق‌تر از ارکستراسیون فنی تغییر می‌دهد، جایی که انسان ابتدا مسئله را حل می‌کند و سپس به هوش مصنوعی دقیقاً می‌گوید چه کاری انجام دهد.

گام بعدی شما

اگر مک با رم ۳۲ گیگابایت یا بیشتر دارید، LM Studio یا Ollama را نصب کرده و مدل Qwen 3.6 35B-A3B را فراخوانی کنید.
از پرامپت‌های مبهم بپرهیزید؛ لیست کارهای کوچک (Atomic TODOs) بنویسید، دقیقاً مشخص کنید مدل به کدام فایل‌ها نگاه کند و صریحاً از آن بخواهید دستورات دیباگ را حذف کرده یا از یک معماری خاص پیروی کند تا دانش طراحی‌اش «فعال» شود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات سخت‌افزاری استک محلی

نقطه بهینه مدل‌ها

ترجیحات مدل‌ها به شرح زیر است:

Qwen 3.6 35B-A3B: انتخاب اول برای کدنویسی عامل‌محور به دلیل تعادل بین سرعت و هوشمندی. در برخی تست‌ها، مانند یک پروژه کوچک سیستم‌عامل مرورگر، این مدل عملکردهای کاربردی بسیار بیشتری نسبت به Claude 4 Opus تولید کرد.
Qwen 3.6 27B: برای کارهای متراکم کدنویسی که در آن‌ها دقت بالاتر از سرعت (تعداد توکن در ثانیه) اهمیت دارد. برخی معتقدند افزایش دقت، کندتر بودن سرعت نسبت به مدل ۳۵ میلیاردی را توجیه می‌کند.
Qwen 3.5 122B-A10B: برای کارهای معماری پیچیده استفاده می‌شود، هرچند به دلیل ۱۰ میلیارد پارامتر فعال، به‌طور قابل‌توجهی کندتر است. این مدل ممکن است در ارزیابی‌های خاص (مانند swebench) کمی بهتر از مدل ۳۵ میلیاردی عمل کند و با سرعت تقریبی ۳۰ توکن در ثانیه (در مقابل ۵۵ توکن در ثانیه مدل ۳۵ میلیاردی) اجرا شود.
Gemma 4 31B: مورد استفاده برای چت‌های عمومی و ترجمه.
Gemma 4 12B: گزینهٔ اصلی برای کارهای مرتبط با صوت.
سایر آزمایش‌ها: کاربران در حال تست مدل‌های Nemotron 3 Super 122B-A12B، مدل Step 3.7 Flash (که برخی معتقدند در ارزیابی‌های واقعی کدبیس از Qwen 3.6 27B بهتر است)، Minimax M2.7 و GPT-OSS 120B برای نیازهای با سرعت بالا و هوشمندی کمتر هستند.

نقش هارنس (Harness)

جزئیات فنی و بهینه‌سازی‌ها

برای اینکه مدل‌های محلی در سطح یک «عامل» (Agent) عمل کنند، پیکربندی‌های فنی خاصی لازم است:

حافظه KV Cache و کش پرامپت:

مدل‌های محلی اغلب در هر نوبت، متن (Context) را دوباره پردازش می‌کنند. این مشکل معمولاً به دلیل نبود قابلیت «حفظ تفکر» در مدل‌های قدیمی است که مدل را مجبور می‌کند پس از حذف استدلال‌ها، فراخوانی‌های ابزار را دوباره پردازش کند.
مدل Qwen 3.6 از حفظ تفکر پشتیبانی می‌کند. کاربران باید مقدار chat-template-kwargs = {"preserve_thinking": true} را در فایل models.ini تنظیم کنند یا llama.cpp را با فلگ مربوطه اجرا کنند.
این کار مانع از حذف ردپای استدلال در طول فراخوانی‌های متناوب ابزار می‌شود و نیاز به محاسبه مجدد KV cache در هر نوبت را از بین می‌برد.
کاربران باید مطمئن شوند که هارنس آن‌ها «فقط-افزودنی» (append-only) است تا محاسبات مجدد کش تحریک نشود. ابزارهایی مانند Aperture از Tailscale می‌توانند برای ثبت و مقایسه درخواست‌ها جهت یافتن این باگ‌ها استفاده شوند.
برخی مشکلات مربوط به واگرایی توکنایزر است؛ برای مثال، توکن‌هایی که به‌صورت خودرگرسیو تولید می‌شوند (مانند "pre" و "fill") ممکن است در مرحله prefill به عنوان یک توکن واحد ("prefill") تحلیل شوند و باعث واگرایی و محاسبه مجدد کش گردند.

استراتژی‌های کوانتیزاسیون:

کوانتیزاسیون بالاتر (مثلاً Q8) برای جلوگیری از افتادن مدل در حلقه‌های تکراری و کاهش «تلاطم» (Churn) استفاده می‌شود که با وجود استنتاج خام کندتر، در مجموع زمان کمتری می‌گیرد.
برخی کاربران دریافتند که استفاده از F16 برای بخش K از KV cache و Q8 برای بخش V، بسیاری از حلقه‌های تکراری را حذف می‌کند.
حساسیت به کوانتیزاسیون بالاست؛ برای مثال، در Step 3.7 Flash پس‌رفت‌هایی در llama.cpp دیده شده که در آن برخی کوانت‌ها نتایج KLD و Perplexity بدتری نسبت به قبل تولید می‌کنند.

مدیریت پنجره متنی (Context Window):

در حالی که Qwen 3.6 می‌تواند ۲۵۶ هزار توکن را مدیریت کند، کاربران اغلب آن را به ۱۲۸ هزار محدود می‌کنند تا در ۱۶ گیگابایت VRAM جای بگیرد.
دستور /new در Pi برای پاک‌سازی متن در کارهای ساده استفاده می‌شود و دستور /tree به کاربران اجازه می‌دهد به نقطه‌ای قبل از یک سری فراخوانی‌های ناموفق ابزار بازگردند.
برخی توسعه‌دهندگان پنجره‌های ۶۵ هزار توکنی را بسیار کوچک می‌بینند، زیرا خواندن یک ساختار فایل پیچیده می‌تواند از این حد فراتر رود و پنجره‌های ۲۰۰ هزار توکن به بالا را ترجیح می‌دهند.

شکست در فراخوانی ابزارها:

مدل‌های محلی اغلب با ابزار «ویرایش» (edit) مشکل دارند و به‌دلیل عدم تطابق فاصله‌های خالی (whitespace) یا فضاهای انتهایی شکست می‌خورند. مدل ممکن است ۵ یا ۶ بار در ویرایش یک تابع ۵ خطی در یک فایل ۲۵۰ خطی شکست بخورد.
یک راهکار پیشنهادی، ارائه یک مهارت با استفاده از دستور sed 's/( )*$//g' برای پاک‌سازی فضاهای خالی انتهایی است.
به‌روزرسانی فایل AGENTS.md برای محدود کردن «ویرایش» (در مقابل بازنویسی کامل) نیز می‌تواند این شکست‌ها را کاهش دهد.
برخی مدل‌ها در حلقه‌های تفکر طولانی گیر می‌کنند و گاهی سه برابر بیشتر از یک مدل بسته پیشرو توکن مصرف می‌کنند که به‌ویژه در سخت‌افزارهای کندتر مانند مک‌بوک‌ها آزاردهنده است.

محلی در مقابل پیشرو: شکاف واقعیت

مدل‌های محلی اغلب در موارد زیر شکست می‌خورند:

طراحی معماری سطح بالا بدون یک مشخصات (Spec) دقیق. اگر فرضیات باز بمانند، آن‌ها راحت‌ترین مسیر را انتخاب می‌کنند (مثلاً قرار دادن CSS مستقیماً در HTML) به جای بهترین مسیر معماری.
پرداخت ظریف رابط کاربری (UI) و «سلیقه» در طراحی وب، جایی که Opus همچنان برتر است.
مدیریت کدبیس‌های عظیم بدون راهنمایی‌های جراحی‌گونه و تکه‌تکه.

اقتصاد حریم خصوصی

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

گام بعدی شما

اگر مک با رم ۳۲ گیگابایت یا بیشتر دارید، LM Studio یا Ollama را نصب کرده و مدل Qwen 3.6 35B-A3B را فراخوانی کنید.
از پرامپت‌های مبهم بپرهیزید؛ لیست کارهای کوچک (Atomic TODOs) بنویسید، دقیقاً مشخص کنید مدل به کدام فایل‌ها نگاه کند و صریحاً از آن بخواهید دستورات دیباگ را حذف کرده یا از یک معماری خاص پیروی کند تا دانش طراحی‌اش «فعال» شود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

جزئیات سخت‌افزاری استک محلی

نقطه بهینه مدل‌ها

نقش هارنس (Harness)

جزئیات فنی و بهینه‌سازی‌ها

محلی در مقابل پیشرو: شکاف واقعیت

اقتصاد حریم خصوصی

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

جزئیات سخت‌افزاری استک محلی

نقطه بهینه مدل‌ها

نقش هارنس (Harness)

جزئیات فنی و بهینه‌سازی‌ها

محلی در مقابل پیشرو: شکاف واقعیت

اقتصاد حریم خصوصی

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

جزئیات سخت‌افزاری استک محلی

نقطه بهینه مدل‌ها

نقش هارنس (Harness)

جزئیات فنی و بهینه‌سازی‌ها

محلی در مقابل پیشرو: شکاف واقعیت

اقتصاد حریم خصوصی

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا توسعه‌دهندگان مدل‌های ابری Claude را با Qwen 3.6 محلی جایگزین می‌کنند؟

جزئیات سخت‌افزاری استک محلی

نقطه بهینه مدل‌ها

نقش هارنس (Harness)

جزئیات فنی و بهینه‌سازی‌ها

محلی در مقابل پیشرو: شکاف واقعیت

اقتصاد حریم خصوصی

تحلیل: چرخش به سمت هوش مصنوعی «لایه لایه»

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران