اگر امروز برای استفاده از مدلهای GPT هزینه پرداخت میکنید، احتمالاً بهزودی با کاهش قیمتها و سرعت پاسخدهی بیشتری مواجه خواهید شد. در ۲۴ ژوئن ۲۰۲۶، شرکت OpenAI و Broadcom از تراشه Jalapeño پردهبرداری کردند؛ سختافزاری که بهطور اختصاصی برای استنتاج (Inference) — یعنی همان لحظهای که مدل واقعاً جواب تولید میکند، شبیه به خودِ آشپزی در مقابل دورهی آموزش آشپز — طراحی شده است تا عملکرد، بهرهوری و مقیاسپذیری را بهبود بخشد.
در حالی که توجه اکثر فعالان صنعت بر آموزش مدلهای پیشرو است، بار مالی واقعی برای کسبوکارها در مرحله استنتاج نهفته است؛ یعنی هزینه مستمر تولید توکنها برای هر فراخوانی API. آموزش یک مدل پیشرو، یک رویداد سرمایهای یکباره است، اما استنتاج یک «مالیات عملیاتی» تکرارپذیر است که بابت هر توکن، هر فراخوانی API و هر گامِ یک عامل (Agent Hop) برای همیشه پرداخت میشود. طبق اعلام رسمی، OpenAI با ساخت یک مدار مجتمع کاربردیویژه (ASIC)، در واقع از پرداخت «مالیات اجاره» به تأمینکنندگان GPUهای همهمنظوره دست کشیده است.
همانطور که در تحلیل قبلی ما دربارهی تغییر استانداردهای توسعهدهندگان در اثر سیاستهای کدنویسی مدلها اشاره کردیم، Jalapeño نیز یک چرخش راهبردی به سمت تخصصیسازی است. OpenAI بهجای استفاده از ابزاری همهفنحریف اما گرانقیمت برای هر وظیفه، یک ابزار جراحی دقیق طراحی کرده که فقط برای یک کار ساخته شده: تولید توکن در مرحله «گذر پیشرو» (Forward-pass) برای مدلهای کلاس GPT.

معماری استنتاج
GPUهای همهمنظوره شبیه آشپزهای ماهری هستند که قادر به پخت هر دستوری هستند، اما برای تکرار سادهی چیدن یک دیس غذایی، بیش از حد گرانقیمتاند. Jalapeño ابزاری تخصصی است که فقط برای «بستهبندی» و ارائه پاسخهای مدلهای زبانی بزرگ (LLM) طراحی شده است.
به نقل از مستندات رسمی عرضه، این تراشه بر سه ستون اصلی تمرکز دارد: عملکرد (Performance)، بهرهوری (Efficiency) و مقیاس (Scale). این سختافزار تمام بخشهای سیلیکونی را که به آموزش مدل اختصاص داشتند حذف کرده و بهطور کامل بر دو عملیات غالب تمرکز میکند: ضرب ماتریسی و پهنای باند حافظه. برخلاف GPUهای انویدیا که هر دو مرحله آموزش و استنتاج را در طی طیف گستردهای از بارهای کاری مدیریت میکنند، یک ASIC استنتاج هر چیزی را که به اجرای مدل آموزشدیده برای تولید توکن کمک نکند، حذف میکند.

استنتاج معمولاً «محدود به حافظه» (Memory-bound) است؛ به این معنا که تراشه اغلب بهجای انجام محاسبات ریاضی، منتظر انتقال دادهها میماند. تخصص Broadcom در طراحی سیلیکون سفارشی به OpenAI اجازه داد تا تراشه را دقیقاً با الگوهای حافظه خاص خانواده مدلهای GPT تنظیم کند. این «همطراحی» (Co-design) مزیت اصلی است؛ در حالی که یک GPU باید به نیاز همهی کاربران پاسخ دهد، Jalapeño فقط باید در خدمت GPT باشد.
مسیر یک درخواست
وقتی درخواستی به API شرکت OpenAI میرسد، مسیر سختافزاری زیر را در سیلیکون Jalapeño طی میکند:
- مسیریابی درخواست (Request Routing): برنامه یک پرامپت میفرستد و یک زمانبند (Scheduler) آن را به یک خوشه استنتاج هدایت میکند. هر میلیثانیه تأخیر در اینجا، توسط کاربر به عنوان زمان انتظار حس میشود.
- فاز پیشپُرکردن (Prefill Phase): تراشه ورودی را بهصورت موازی پردازش میکند تا حافظه KV cache را بسازد. این مرحله محاسباتمحور (Compute-bound) است و دقیقاً همان جایی است که واحدهای ماتریسی سفارشی برای تسریع آن طراحی شدهاند.
- فاز رمزگشایی (Decode Phase): تراشه توکنها را یکییکی تولید میکند و در هر گام، حافظه KV cache را میخواند. در این مرحله که محدود به حافظه است، جابجایی بهینهشده دادهها و حافظه با پهنای باند بالای Jalapeño تأخیر را بهشدت کاهش میدهد.
- دسته-بندی (Batching): درخواستهای متعدد کاربران دستهبندی میشوند تا سیلیکون در حالت اشباع باقی بماند. هزاران تراشه از این نوع در مراکز داده برای تضمین حداکثر توان عملیاتی (Throughput) هماهنگ شدهاند؛ این همان چیزی است که در بخش «مقیاس» در گزارش رسمی به آن اشاره شده است.
- استریم پاسخ (Response Streaming): توکنها همزمان با تولید به برنامه بازمیگردند. کاهش هزینه به ازای هر توکن در این نقطه، کل هدف اقتصادی این تراشه است.

شکاف هماهنگی هوش مصنوعی
سختافزار سریعتر، مشکلی متناقض به نام «شکاف هماهنگی هوش مصنوعی» (AI Coordination Gap) ایجاد میکند. این یعنی فاصله هر چه بیشتر میشود بین سرعت تکتک اجزای سختافزاری هوش مصنوعی و کیفیت پایین هماهنگی آنها در یک گردشکار (Workflow). این شکاف، گرانترین مشکل در تولیدات صنعتی AI است که هیچ تراشهای نمیتواند آن را حل کند.
طبق گزارشهای تحلیلی، وقتی استنتاج ۲ برابر ارزانتر شود، مهندسان معمولاً با افزودن عاملهای بیشتر، فراخوانی ابزارهای بیشتر و تکرارهای (Retries) بیشتر پاسخ میدهند. این یک نمونه کلاسیک از پارادوکس جِونز است: افزایش بهرهوری در واقع باعث افزایش مصرف کل میشود. ممکن است صورتحساب توکنهای شما پس از استقرار سختافزارهای کلاس Jalapeño افزایش یابد، چون هزینه نهایی (Marginal Cost) افزودن یک عامل دیگر به خط لوله بهشدت کاهش یافته است.

یک زنجیره بازپرداخت با ۵ عامل را تصور کنید (طبقهبندی $\rightarrow$ بازیابی $\rightarrow$ سیاست $\rightarrow$ اقدام $\rightarrow$ پاسخ). اگر هر عامل حدوداً ۹۷٪ قابل اعتماد باشد، نرخ موفقیت کل زنجیره به حدود ۸۶٪ سقوط میکند ($0.98 \times 0.95 \times 0.96 \times 0.97 \times 0.99$). Jalapeño هر یک از این مراحل خطاپذیر را سریعتر و ارزانتر میکند، اما هیچ کاری برای رفع آن ۱۴٪ نرخ شکست که در درزهای بین عاملها قرار دارد، انجام نمیدهد.
برای درک ابعاد این شکاف، به گزارش McKinsey QuantumBlack (۲۰۲۵) توجه کنید: بیش از ۷۰٪ کل هزینههای محاسباتی AI اکنون مربوط به استنتاج است، نه آموزش در مقیاس بالا. همچنین با پیشبینی سرمایهگذاری بیش از ۱ تریلیون دلار در مراکز داده تا سال ۲۰۳۰ که با تقاضای استنتاج گره خورده است، مخاطرات مالی این شکاف بسیار عظیم است. علاوه بر این، تحلیلی در arXiv (۲۰۲۴) نشان میدهد خط لولهای با ۶ مرحله که هر گام آن ۹۷٪ قابل اعتماد است، در نهایت تنها ۸۳٪ قابلیت اطمینان سراسری (End-to-end) دارد.
جزئیات فنی و قابلیتها
برای تحلیل اثر Jalapeño باید واقعیتهای تأییدشده را از تحلیلهای صنعتی جدا کنیم. تا تاریخ ۲۴ ژوئن ۲۰۲۶، بنچمارکهای دقیق، تعداد ترانزیستورها یا قیمت هر تراشه در متن رسمی عرضه منتشر نشده است.
قابلیتهای تأییدشده:
- استنتاج بهینهشده برای LLM: بهطور خاص برای سرویسدهی به مدلهای زبانی بزرگ ساخته شده است، نه برای آموزش آنها (منبع رسمی).
- بهبود عملکرد: هدفگذاری برای توان عملیاتی بالاتر در هر درخواست، که در عمل به معنای توکنهای بیشتر در ثانیه و کاهش زمان رسیدن به اولین توکن (Time-to-first-token) است (منبع رسمی).
- بهرهوری: بهبود عملکرد به ازای هر وات، که معیار اصلی حاکم بر اقتصاد مراکز داده و صورتحسابهای تکراری برق است (منبع رسمی).
- مقیاس ناوگانی: طراحی شده برای استقرار در سطح ناوگان زیرساخت جهانی OpenAI و نه به عنوان یک شتابدهنده تکواحدی (منبع رسمی).
آنچه Jalapeño نیست:
- محصول تجاری نیست: این یک سیلیکون زیرساختی داخلی است. شما از طریق API از آن بهره میبرید، نه با خرید یک کارت برای سرورهای خود.
- بنچمارک عمومی ندارد: هیچ بنچمارک MLPerf، سرعت ساعت (Clock speed) یا پیکربندی حافظه افشا شدهای وجود ندارد. هر کسی که امروز اعداد دقیق TOPS را نقل میکند، در حال حدس زدن است.
- ابزار آموزش نیست: این تراشه با H100/B200 انویدیا در فاز اولیه ساخت مدل رقابت نمیکند؛ بلکه هدف آن منحنی هزینه تکراری است.
اثرات اقتصادی و بازار
برای کسبوکارهای کوچک، این تغییر در نهایت به شکل قیمت پایینتر API و پاسخهای سریعتر ظاهر میشود. اتوماسیون پشتیبانی مشتری که امروز ماهانه ۲,۰۰۰ دلار هزینه دارد، در ۱۲ تا ۱۸ ماه آینده میتواند به ۱,۲۰۰ تا ۱,۴۰۰ دلار کاهش یابد، به شرطی که قیمتهای استنتاج از روند دو سال اخیر پیروی کنند.
با این حال، تله اینجاست که توکنهای ارزان، تیمها را وسوسه میکند تا سامانههایی پیچیدهتر از توان هماهنگی خود بسازند. بنیانگذاران شرکتها اگر شش عامل را بدون ابزارهای اندازهگیری و نظارتی به هم وصل کنند تا یک قیف فروش را اتوماتیک کنند، احتمالاً به دیوار ۸۳٪ نرخ موفقیت میخورند. این ۱۷٪ نرخ شکست، تبدیل به یک ماشین تولید خسارت و ریزش مشتری (Churn) میشود. فرصت واقعی برای افراد منضبط این است که از استنتاج ارزان برای انجام «یک کار» با دقت بسیار بالا استفاده کنند؛ یک عامل تکمنظوره با دقت ۹۹٪ همیشه برنده یک سیستم گسترده با دقت ۸۳٪ است.
از نظر استراتژیک، OpenAI مسیر غولهای ابری (Hyperscalers) مثل گوگل در TPUها و آمازون در Inferentia را دنبال میکند. آنها با مشارکت Broadcom، وابستگی خود به NVIDIA را کاهش میدهند. این رویکرد به OpenAI اجازه میدهد تا با موفقیت محصولاتش، ساختار هزینه و اقتصاد واحد (Unit Economics) خود را کنترل کند.
چشمانداز رقابتی
Jalapeño وارد میدانی از شتابدهندههای تخصصی شده است. هدف استراتژیک برای «بازیگران بزرگ» یکسان است: کنترل منحنی هزینه و کاهش وابستگی به انویدیا.
| تراشه | سازنده | کاربرد اصلی | دسترسی | مزیت کلیدی |
|---|---|---|---|---|
| Jalapeño | OpenAI + Broadcom | استنتاج LLM | داخلی (۲۰۲۶) | طراحی مشترک برای مدلهای GPT |
| TPU v6 (Trillium) | آموزش + استنتاج | گوگل کلاد | بالغ و قابل اجاره در مقیاس بالا | |
| Inferentia2 | AWS | استنتاج | AWS EC2 | هزینه پایین استنتاج در اکوسیستم AWS |
| LPU | Groq | استنتاج | GroqCloud API | تأخیر بسیار پایین در رمزگشایی |
| H200 / B200 | NVIDIA | آموزش + استنتاج | عمومی | اکوسیستم جهانی CUDA |
اگرچه انویدیا همچنان غالب است، اما ظهور Jalapeño بازار استنتاج را تکهتکه میکند. با پیشبینی سرمایهگذاری بیش از ۱ تریلیون دلار در مراکز داده تا سال ۲۰۳۰، این چرخش فشار واقعی بر حاشیه سود انویدیا وارد میکند؛ روندی که Wall Street Journal در سطح کل این بخش ردیابی کرده است.
پیادهسازی و بهترین روشها
چون شما Jalapeño را از طریق API مصرف میکنید، بهینهسازی باید در کد ارکستراسیون (هماهنگسازی) شما رخ دهد، نه در تنظیمات سختافزاری. شما از طریق کلاینت استاندارد پایتون OpenAI به این زیرساخت دسترسی دارید و اثرات آن را در صورتحساب و اعداد تأخیر میبینید، نه در تغییرات کد.
گردشکار عملی برای پذیرش:
- ابتدا اندازهگیری کنید: از ابزاری مثل LangSmith tracing یا لاگهای اجرای n8n استفاده کنید تا هزینه به ازای هر «درخواست کاربر» را بسنجید، نه هر «فراخوانی API». این کار هزینه پنهان گسترش عاملها (Agent Fan-out) را برملا میکند.
- کنترل گسترش عاملها: فقط به دلیل ارزان شدن توکنها، «عاملهای تخصصی» اضافه نکنید. هر عامل جدید، مشکل قابلیت اطمینان را در اثر ضرب تکثیری افزایش میدهد و پارادوکس جِونز حاشیه سود شما را میبلعد.
- گرههای تأیید قرار دهید: راه حل شکاف هماهنگی، گیتهای تأییدی (Verification Gate) هستند. مثلاً گرهای که بررسی کند شناسه فاکتور بازیابیشده با ارجاع ایمیل مطابقت دارد، پیش از آنکه داده را به عامل «سیاست» بفرستد، میتواند نرخ موفقیت را از ۸۶٪ به نزدیکی ۹۷٪ برساند.
- استانداردسازی ابزارها: از پروتکل زمینهٔ مدل (MCP) استفاده کنید، که یک استاندارد باز از Anthropic است تا نحوه اتصال عاملها به ابزارهای خارجی مثل سیستمهای صورتحساب را استاندارد کند. این «پورت USB-C برای ابزارهای AI»، اتصالات را قابلسنجشتر و مطمئنتر میکند.
- بازبینی ماهانه لایهها: با استقرار Jalapeño، صفحه قیمتهای OpenAI را برای کاهشهای احتمالی قیمت استنتاج رصد کنید و لایههای اشتراکی خود را بر اساس آن تغییر دهید.
چرخش استراتژیک
در کل صنعت، برندگان کسانی نخواهند بود که ارزانترین توکنها را دارند، بلکه کسانی پیروز میشوند که مشکل ارکستراسیون را حل کنند. استفاده از ابزارهایی مثل LangGraph، AutoGen یا CrewAI برای افزودن گرههای تأیید بین مراحل عاملها، قابلیت اطمینان را بدون نیاز به سختافزاری جدید بالا میبرد.
در یک وظیفه واقعی چندعاملی، مثل حل مشکل بازپرداخت مشتری برای فاکتور شماره ۴۴۷۱، یک زنجیره ۵ عاملی (طبقهبندی $\rightarrow$ بازیابی $\rightarrow$ سیاست $\rightarrow$ اقدام $\rightarrow$ پاسخ) معمولاً ۸۶٪ نرخ موفقیت سراسری دارد. Jalapeño باعث میشود این ۵ فراخوانی شاید ۴۰٪ ارزانتر و سریعتر باشند، اما جلوی پردازش اشتباه ۱۴٪ درخواستهای بازپرداخت را نمیگیرد. این همان «شکاف هماهنگی» است که اکنون با دلار اندازهگیری میشود.
این تغییر، خندق رقابتی (Moat) را از لایه سختافزار به لایه ارکستراسیون منتقل میکند. با کالامفهوم شدن سیلیکونهای استنتاج، توانایی ساخت گردشکارهای عاملمحور (Agentic Workflows) قابل اعتماد، منبع اصلی ارزش تجاری خواهد بود. شرکتهایی که فاصله بین اجزای سریع و گردشکارهای مطمئن را اندازهگیری کرده و آن را پر کنند، از تیمهایی که صرفاً به دنبال توکنهای ارزانتر هستند، پیشی خواهند گرفت.
گام بعدی شما
- نرخ خطای هر مرحله از زنجیره عاملهای خود را بهصورت مجزا اندازهگیری کرده و نقاط ریزش را شناسایی کنید.
- بهجای افزودن عاملهای بیشتر برای دقت بالاتر، گرههای تأیید (Verification Nodes) را در خط لوله پیاده کنید.
- پروتکل MCP را برای استانداردسازی ارتباط مدلها با دیتابیسهای داخلی بررسی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.

گفتگو