اگر برای کدنویسی روزانه هزینه اشتراک Claude میپردازید، احتمالاً برای شهودی پرداخت میکنید که همیشه به آن نیاز ندارید. طبق گزارشهای منتشر شده در ۱۵ ژوئن ۲۰۲۶ در Hacker News، موج جدیدی از توسعهدهندگان به سمت پشتههای محلی (Local-first) حرکت کردهاند. آنها استدلالهای سطح بالای مدلهای ابری را با حریم خصوصی مطلق و هزینه صفرِ استنتاج (Inference) — که شبیه خودِ آشپزی است، نه دورهی آموزش آشپز — عوض میکنند.
همانطور که در تحلیل قبلی ما دربارهی استقرار هوش مصنوعی روی دستگاه (on-device AI) اشاره کردیم، این روند یعنی گذار از «اجاره کردن هوش» به «مالکیت آن». بسیاری از کاربران حالا از یک جریان ترکیبی استفاده میکنند. آنها برای طراحی معماری پروژه از مدلهای گرانقیمت ابری کمک میگیرند و برای اجرای کارهای تکراری و خستهکننده، به مدلهای محلی تکیه میکنند.
در حال حاضر، استاندارد طلایی این ساختار بر پایه مدلهای Qwen 3.6 35B-A3B یا Qwen 3.6 27B است که از طریق llama.cpp یا vLLM اجرا میشوند. بر اساس بررسی منابع متعدد، بسیاری از کاربران افزونههای استاندارد IDE را کنار گذاشته و از ابزار Pi.dev استفاده میکنند. این ابزار محیطی عاملمحور (Agentic) و منعطفتر فراهم میکند. به نقل از مستندات فنی، بهینهسازیهای کلیدی در این مدلها شامل موارد زیر است:
- فعالسازی
preserve_thinking: trueدر llama.cpp برای جلوگیری از پردازش مجدد کل متن در هر نوبت. - استفاده از پیشبینی چند-توکنی (MTP) برای رسیدن به سرعت ۵۰ تا ۱۵۰ توکن در ثانیه.
- استقرار روی سختافزارهایی مثل Mac Studio با ۱۲۸ گیگابایت رم یا سیستمهای مجهز به دو کارت گرافیک RTX 3090.
این چرخش، هزینهی توسعه را از «هزینههای جاری» (OpEx) به «هزینه سرمایهای» (CapEx) تغییر میدهد. شما بهجای پرداخت ماهانه، روی حافظه VRAM سرمایهگذاری میکنید. البته این مسیر، تجربهای شبیه به همکاری با یک «برنامهنویس تازهکار» است. مدلهای محلی گاهی در حلقههای تکرار میافتند یا در فراخوانی ابزارهای پیچیده شکست میخورند. بنابراین باید دستورات یا همان مهندسی پرامپت (Prompt Engineering) — که شبیه هنر سؤال درست پرسیدن از یک مشاور باتجربه است — را بسیار دقیق بنویسید و وظایف را به قطعات کوچکتر تقسیم کنید.
برای یک کدنویس مستقل، این یعنی حاکمیت کامل بر دادهها و حذف سQuotaهای توکن. شما میتوانید یک عامل (Agent) را ۱۰ ساعت برای تست نفوذ یک کد اجرا کنید، بدون اینکه نگران صورتحساب ۲۰۰ دلاری باشید. در واقع مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — از یک مدیر پروژه به یک «ماشینحساب کدنویسی» سریع تبدیل شده است.
گام بعدی شما
- ابزار Pi.dev را با یک نسخهی کوانتیزه (Quant) از Qwen 3.6 امتحان کنید.
- اگر با کندی مواجه شدید، بررسی کنید که آیا موتور استنتاج شما از آخرین وصلههای MTP برای افزایش سرعت پشتیبانی میکند یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اثر این تغییرات بر سختافزار، به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو