تراشه Jalapeño؛ استراتژی OpenAI برای کاهش هزینه‌های استنتاج مدل‌های زبانی

اگر امروز برای استفاده از مدل‌های GPT هزینه پرداخت می‌کنید، احتمالاً به‌زودی با کاهش قیمت‌ها و سرعت پاسخ‌دهی بیشتری مواجه خواهید شد. در ۲۴ ژوئن ۲۰۲۶، شرکت OpenAI و Broadcom از تراشه Jalapeño پرده‌برداری کردند؛ سخت‌افزاری که به‌طور اختصاصی برای استنتاج (Inference) — یعنی همان لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه به خودِ آشپزی در مقابل دوره‌ی آموزش آشپز — طراحی شده است تا عملکرد، بهره‌وری و مقیاس‌پذیری را بهبود بخشد.

در حالی که توجه اکثر فعالان صنعت بر آموزش مدل‌های پیشرو است، بار مالی واقعی برای کسب‌وکارها در مرحله استنتاج نهفته است؛ یعنی هزینه مستمر تولید توکن‌ها برای هر فراخوانی API. آموزش یک مدل پیشرو، یک رویداد سرمایه‌ای یک‌باره است، اما استنتاج یک «مالیات عملیاتی» تکرارپذیر است که بابت هر توکن، هر فراخوانی API و هر گامِ یک عامل (Agent Hop) برای همیشه پرداخت می‌شود. طبق اعلام رسمی، OpenAI با ساخت یک مدار مجتمع کاربردی‌ویژه (ASIC)، در واقع از پرداخت «مالیات اجاره» به تأمین‌کنندگان GPUهای همه‌منظوره دست کشیده است.

همان‌طور که در تحلیل قبلی ما درباره‌ی تغییر استانداردهای توسعه‌دهندگان در اثر سیاست‌های کدنویسی مدل‌ها اشاره کردیم، Jalapeño نیز یک چرخش راهبردی به سمت تخصصی‌سازی است. OpenAI به‌جای استفاده از ابزاری همه‌فن‌حریف اما گران‌قیمت برای هر وظیفه، یک ابزار جراحی دقیق طراحی کرده که فقط برای یک کار ساخته شده: تولید توکن در مرحله «گذر پیشرو» (Forward-pass) برای مدل‌های کلاس GPT.

تراشه استنتاج سفارشی OpenAI Jalapeño: تغییر اقتصاد مدل‌های زبانی بزرگ

معماری استنتاج

GPUهای همه‌منظوره شبیه آشپزهای ماهری هستند که قادر به پخت هر دستوری هستند، اما برای تکرار ساده‌ی چیدن یک دیس غذایی، بیش از حد گران‌قیمت‌اند. Jalapeño ابزاری تخصصی است که فقط برای «بسته‌بندی» و ارائه پاسخ‌های مدل‌های زبانی بزرگ (LLM) طراحی شده است.

به نقل از مستندات رسمی عرضه، این تراشه بر سه ستون اصلی تمرکز دارد: عملکرد (Performance)، بهره‌وری (Efficiency) و مقیاس (Scale). این سخت‌افزار تمام بخش‌های سیلیکونی را که به آموزش مدل اختصاص داشتند حذف کرده و به‌طور کامل بر دو عملیات غالب تمرکز می‌کند: ضرب ماتریسی و پهنای باند حافظه. برخلاف GPUهای انویدیا که هر دو مرحله آموزش و استنتاج را در طی طیف گسترده‌ای از بارهای کاری مدیریت می‌کنند، یک ASIC استنتاج هر چیزی را که به اجرای مدل آموزش‌دیده برای تولید توکن کمک نکند، حذف می‌کند.

تراشه استنتاج سفارشی OpenAI Jalapeño: تغییر اقتصاد مدل‌های زبانی بزرگ

استنتاج معمولاً «محدود به حافظه» (Memory-bound) است؛ به این معنا که تراشه اغلب به‌جای انجام محاسبات ریاضی، منتظر انتقال داده‌ها می‌ماند. تخصص Broadcom در طراحی سیلیکون سفارشی به OpenAI اجازه داد تا تراشه را دقیقاً با الگوهای حافظه خاص خانواده مدل‌های GPT تنظیم کند. این «هم‌طراحی» (Co-design) مزیت اصلی است؛ در حالی که یک GPU باید به نیاز همه‌ی کاربران پاسخ دهد، Jalapeño فقط باید در خدمت GPT باشد.

مسیر یک درخواست

وقتی درخواستی به API شرکت OpenAI می‌رسد، مسیر سخت‌افزاری زیر را در سیلیکون Jalapeño طی می‌کند:

مسیریابی درخواست (Request Routing): برنامه یک پرامپت می‌فرستد و یک زمان‌بند (Scheduler) آن را به یک خوشه استنتاج هدایت می‌کند. هر میلی‌ثانیه تأخیر در اینجا، توسط کاربر به عنوان زمان انتظار حس می‌شود.
فاز پیش‌پُرکردن (Prefill Phase): تراشه ورودی را به‌صورت موازی پردازش می‌کند تا حافظه KV cache را بسازد. این مرحله محاسبات‌محور (Compute-bound) است و دقیقاً همان جایی است که واحدهای ماتریسی سفارشی برای تسریع آن طراحی شده‌اند.
فاز رمزگشایی (Decode Phase): تراشه توکن‌ها را یکی‌یکی تولید می‌کند و در هر گام، حافظه KV cache را می‌خواند. در این مرحله که محدود به حافظه است، جابجایی بهینه‌شده داده‌ها و حافظه با پهنای باند بالای Jalapeño تأخیر را به‌شدت کاهش می‌دهد.
دسته-بندی (Batching): درخواست‌های متعدد کاربران دسته‌بندی می‌شوند تا سیلیکون در حالت اشباع باقی بماند. هزاران تراشه از این نوع در مراکز داده برای تضمین حداکثر توان عملیاتی (Throughput) هماهنگ شده‌اند؛ این همان چیزی است که در بخش «مقیاس» در گزارش رسمی به آن اشاره شده است.
استریم پاسخ (Response Streaming): توکن‌ها هم‌زمان با تولید به برنامه بازمی‌گردند. کاهش هزینه به ازای هر توکن در این نقطه، کل هدف اقتصادی این تراشه است.

تراشه استنتاج سفارشی OpenAI Jalapeño: تغییر اقتصاد مدل‌های زبانی بزرگ

شکاف هماهنگی هوش مصنوعی

سخت‌افزار سریع‌تر، مشکلی متناقض به نام «شکاف هماهنگی هوش مصنوعی» (AI Coordination Gap) ایجاد می‌کند. این یعنی فاصله هر چه بیشتر می‌شود بین سرعت تک‌تک اجزای سخت‌افزاری هوش مصنوعی و کیفیت پایین هماهنگی آن‌ها در یک گردش‌کار (Workflow). این شکاف، گران‌ترین مشکل در تولیدات صنعتی AI است که هیچ تراشه‌ای نمی‌تواند آن را حل کند.

طبق گزارش‌های تحلیلی، وقتی استنتاج ۲ برابر ارزان‌تر شود، مهندسان معمولاً با افزودن عامل‌های بیشتر، فراخوانی ابزارهای بیشتر و تکرارهای (Retries) بیشتر پاسخ می‌دهند. این یک نمونه کلاسیک از پارادوکس جِونز است: افزایش بهره‌وری در واقع باعث افزایش مصرف کل می‌شود. ممکن است صورت‌حساب توکن‌های شما پس از استقرار سخت‌افزارهای کلاس Jalapeño افزایش یابد، چون هزینه نهایی (Marginal Cost) افزودن یک عامل دیگر به خط لوله به‌شدت کاهش یافته است.

تراشه استنتاج سفارشی OpenAI Jalapeño: تغییر اقتصاد مدل‌های زبانی بزرگ

یک زنجیره بازپرداخت با ۵ عامل را تصور کنید (طبقه‌بندی $\rightarrow$ بازیابی $\rightarrow$ سیاست $\rightarrow$ اقدام $\rightarrow$ پاسخ). اگر هر عامل حدوداً ۹۷٪ قابل اعتماد باشد، نرخ موفقیت کل زنجیره به حدود ۸۶٪ سقوط می‌کند ($0.98 \times 0.95 \times 0.96 \times 0.97 \times 0.99$). Jalapeño هر یک از این مراحل خطا‌پذیر را سریع‌تر و ارزان‌تر می‌کند، اما هیچ کاری برای رفع آن ۱۴٪ نرخ شکست که در درزهای بین عامل‌ها قرار دارد، انجام نمی‌دهد.

برای درک ابعاد این شکاف، به گزارش McKinsey QuantumBlack (۲۰۲۵) توجه کنید: بیش از ۷۰٪ کل هزینه‌های محاسباتی AI اکنون مربوط به استنتاج است، نه آموزش در مقیاس بالا. همچنین با پیش‌بینی سرمایه‌گذاری بیش از ۱ تریلیون دلار در مراکز داده تا سال ۲۰۳۰ که با تقاضای استنتاج گره خورده است، مخاطرات مالی این شکاف بسیار عظیم است. علاوه بر این، تحلیلی در arXiv (۲۰۲۴) نشان می‌دهد خط لوله‌ای با ۶ مرحله که هر گام آن ۹۷٪ قابل اعتماد است، در نهایت تنها ۸۳٪ قابلیت اطمینان سراسری (End-to-end) دارد.

جزئیات فنی و قابلیت‌ها

برای تحلیل اثر Jalapeño باید واقعیت‌های تأییدشده را از تحلیل‌های صنعتی جدا کنیم. تا تاریخ ۲۴ ژوئن ۲۰۲۶، بنچمارک‌های دقیق، تعداد ترانزیستورها یا قیمت هر تراشه در متن رسمی عرضه منتشر نشده است.

قابلیت‌های تأییدشده:

استنتاج بهینه‌شده برای LLM: به‌طور خاص برای سرویس‌دهی به مدل‌های زبانی بزرگ ساخته شده است، نه برای آموزش آن‌ها (منبع رسمی).
بهبود عملکرد: هدف‌گذاری برای توان عملیاتی بالاتر در هر درخواست، که در عمل به معنای توکن‌های بیشتر در ثانیه و کاهش زمان رسیدن به اولین توکن (Time-to-first-token) است (منبع رسمی).
بهره‌وری: بهبود عملکرد به ازای هر وات، که معیار اصلی حاکم بر اقتصاد مراکز داده و صورت‌حساب‌های تکراری برق است (منبع رسمی).
مقیاس ناوگانی: طراحی شده برای استقرار در سطح ناوگان زیرساخت جهانی OpenAI و نه به عنوان یک شتاب‌دهنده تک‌واحدی (منبع رسمی).

آنچه Jalapeño نیست:

محصول تجاری نیست: این یک سیلیکون زیرساختی داخلی است. شما از طریق API از آن بهره می‌برید، نه با خرید یک کارت برای سرورهای خود.
بنچمارک عمومی ندارد: هیچ بنچمارک MLPerf، سرعت ساعت (Clock speed) یا پیکربندی حافظه افشا شده‌ای وجود ندارد. هر کسی که امروز اعداد دقیق TOPS را نقل می‌کند، در حال حدس زدن است.
ابزار آموزش نیست: این تراشه با H100/B200 انویدیا در فاز اولیه ساخت مدل رقابت نمی‌کند؛ بلکه هدف آن منحنی هزینه تکراری است.

اثرات اقتصادی و بازار

برای کسب‌وکارهای کوچک، این تغییر در نهایت به شکل قیمت پایین‌تر API و پاسخ‌های سریع‌تر ظاهر می‌شود. اتوماسیون پشتیبانی مشتری که امروز ماهانه ۲,۰۰۰ دلار هزینه دارد، در ۱۲ تا ۱۸ ماه آینده می‌تواند به ۱,۲۰۰ تا ۱,۴۰۰ دلار کاهش یابد، به شرطی که قیمت‌های استنتاج از روند دو سال اخیر پیروی کنند.

با این حال، تله اینجاست که توکن‌های ارزان، تیم‌ها را وسوسه می‌کند تا سامانه‌هایی پیچیده‌تر از توان هماهنگی خود بسازند. بنیان‌گذاران شرکت‌ها اگر شش عامل را بدون ابزارهای اندازه‌گیری و نظارتی به هم وصل کنند تا یک قیف فروش را اتوماتیک کنند، احتمالاً به دیوار ۸۳٪ نرخ موفقیت می‌خورند. این ۱۷٪ نرخ شکست، تبدیل به یک ماشین تولید خسارت و ریزش مشتری (Churn) می‌شود. فرصت واقعی برای افراد منضبط این است که از استنتاج ارزان برای انجام «یک کار» با دقت بسیار بالا استفاده کنند؛ یک عامل تک‌منظوره با دقت ۹۹٪ همیشه برنده یک سیستم گسترده با دقت ۸۳٪ است.

از نظر استراتژیک، OpenAI مسیر غول‌های ابری (Hyperscalers) مثل گوگل در TPUها و آمازون در Inferentia را دنبال می‌کند. آن‌ها با مشارکت Broadcom، وابستگی خود به NVIDIA را کاهش می‌دهند. این رویکرد به OpenAI اجازه می‌دهد تا با موفقیت محصولاتش، ساختار هزینه و اقتصاد واحد (Unit Economics) خود را کنترل کند.

چشم‌انداز رقابتی

Jalapeño وارد میدانی از شتاب‌دهنده‌های تخصصی شده است. هدف استراتژیک برای «بازیگران بزرگ» یکسان است: کنترل منحنی هزینه و کاهش وابستگی به انویدیا.

تراشه	سازنده	کاربرد اصلی	دسترسی	مزیت کلیدی
Jalapeño	OpenAI + Broadcom	استنتاج LLM	داخلی (۲۰۲۶)	طراحی مشترک برای مدل‌های GPT
TPU v6 (Trillium)	Google	آموزش + استنتاج	گوگل کلاد	بالغ و قابل اجاره در مقیاس بالا
Inferentia2	AWS	استنتاج	AWS EC2	هزینه پایین استنتاج در اکوسیستم AWS
LPU	Groq	استنتاج	GroqCloud API	تأخیر بسیار پایین در رمزگشایی
H200 / B200	NVIDIA	آموزش + استنتاج	عمومی	اکوسیستم جهانی CUDA

اگرچه انویدیا همچنان غالب است، اما ظهور Jalapeño بازار استنتاج را تکه‌تکه می‌کند. با پیش‌بینی سرمایه‌گذاری بیش از ۱ تریلیون دلار در مراکز داده تا سال ۲۰۳۰، این چرخش فشار واقعی بر حاشیه سود انویدیا وارد می‌کند؛ روندی که Wall Street Journal در سطح کل این بخش ردیابی کرده است.

پیاده‌سازی و بهترین روش‌ها

چون شما Jalapeño را از طریق API مصرف می‌کنید، بهینه‌سازی باید در کد ارکستراسیون (هماهنگ‌سازی) شما رخ دهد، نه در تنظیمات سخت‌افزاری. شما از طریق کلاینت استاندارد پایتون OpenAI به این زیرساخت دسترسی دارید و اثرات آن را در صورت‌حساب و اعداد تأخیر می‌بینید، نه در تغییرات کد.

گردش‌کار عملی برای پذیرش:

ابتدا اندازه‌گیری کنید: از ابزاری مثل LangSmith tracing یا لاگ‌های اجرای n8n استفاده کنید تا هزینه به ازای هر «درخواست کاربر» را بسنجید، نه هر «فراخوانی API». این کار هزینه پنهان گسترش عامل‌ها (Agent Fan-out) را برملا می‌کند.
کنترل گسترش عامل‌ها: فقط به دلیل ارزان شدن توکن‌ها، «عامل‌های تخصصی» اضافه نکنید. هر عامل جدید، مشکل قابلیت اطمینان را در اثر ضرب تکثیری افزایش می‌دهد و پارادوکس جِونز حاشیه سود شما را می‌بلعد.
گره‌های تأیید قرار دهید: راه حل شکاف هماهنگی، گیت‌های تأییدی (Verification Gate) هستند. مثلاً گره‌ای که بررسی کند شناسه فاکتور بازیابی‌شده با ارجاع ایمیل مطابقت دارد، پیش از آنکه داده را به عامل «سیاست» بفرستد، می‌تواند نرخ موفقیت را از ۸۶٪ به نزدیکی ۹۷٪ برساند.
استانداردسازی ابزارها: از پروتکل زمینهٔ مدل (MCP) استفاده کنید، که یک استاندارد باز از Anthropic است تا نحوه اتصال عامل‌ها به ابزارهای خارجی مثل سیستم‌های صورت‌حساب را استاندارد کند. این «پورت USB-C برای ابزارهای AI»، اتصالات را قابل‌سنجش‌تر و مطمئن‌تر می‌کند.
بازبینی ماهانه لایه‌ها: با استقرار Jalapeño، صفحه قیمت‌های OpenAI را برای کاهش‌های احتمالی قیمت استنتاج رصد کنید و لایه‌های اشتراکی خود را بر اساس آن تغییر دهید.

چرخش استراتژیک

در کل صنعت، برندگان کسانی نخواهند بود که ارزان‌ترین توکن‌ها را دارند، بلکه کسانی پیروز می‌شوند که مشکل ارکستراسیون را حل کنند. استفاده از ابزارهایی مثل LangGraph، AutoGen یا CrewAI برای افزودن گره‌های تأیید بین مراحل عامل‌ها، قابلیت اطمینان را بدون نیاز به سخت‌افزاری جدید بالا می‌برد.

در یک وظیفه واقعی چندعاملی، مثل حل مشکل بازپرداخت مشتری برای فاکتور شماره ۴۴۷۱، یک زنجیره ۵ عاملی (طبقه‌بندی $\rightarrow$ بازیابی $\rightarrow$ سیاست $\rightarrow$ اقدام $\rightarrow$ پاسخ) معمولاً ۸۶٪ نرخ موفقیت سراسری دارد. Jalapeño باعث می‌شود این ۵ فراخوانی شاید ۴۰٪ ارزان‌تر و سریع‌تر باشند، اما جلوی پردازش اشتباه ۱۴٪ درخواست‌های بازپرداخت را نمی‌گیرد. این همان «شکاف هماهنگی» است که اکنون با دلار اندازه‌گیری می‌شود.

این تغییر، خندق رقابتی (Moat) را از لایه سخت‌افزار به لایه ارکستراسیون منتقل می‌کند. با کالامفهوم شدن سیلیکون‌های استنتاج، توانایی ساخت گردش‌کارهای عامل‌محور (Agentic Workflows) قابل اعتماد، منبع اصلی ارزش تجاری خواهد بود. شرکت‌هایی که فاصله بین اجزای سریع و گردش‌کارهای مطمئن را اندازه‌گیری کرده و آن را پر کنند، از تیم‌هایی که صرفاً به دنبال توکن‌های ارزان‌تر هستند، پیشی خواهند گرفت.

گام بعدی شما

نرخ خطای هر مرحله از زنجیره عامل‌های خود را به‌صورت مجزا اندازه‌گیری کرده و نقاط ریزش را شناسایی کنید.
به‌جای افزودن عامل‌های بیشتر برای دقت بالاتر، گره‌های تأیید (Verification Nodes) را در خط لوله پیاده کنید.
پروتکل MCP را برای استانداردسازی ارتباط مدل‌ها با دیتابیس‌های داخلی بررسی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تراشه

سازنده

کاربرد اصلی

دسترسی

مزیت کلیدی

Jalapeño

OpenAI + Broadcom

استنتاج LLM

داخلی (۲۰۲۶)

طراحی مشترک برای مدل‌های GPT

TPU v6 (Trillium)

Google

آموزش + استنتاج

گوگل کلاد

بالغ و قابل اجاره در مقیاس بالا

Inferentia2

AWS

استنتاج

AWS EC2

هزینه پایین استنتاج در اکوسیستم AWS

LPU

Groq

استنتاج

GroqCloud API

تأخیر بسیار پایین در رمزگشایی

H200 / B200

NVIDIA

آموزش + استنتاج

عمومی

اکوسیستم جهانی CUDA

راهنمای فارسی هوش مصنوعی — با نگاه به ایران