اگر قصد دارید زیرساخت هوش مصنوعی شرکت خود را بسازید، وابستگی شما به APIهای گرانقیمت و بسته از همین امروز کمتر شد. در ۴ ژوئن ۲۰۲۶، انویدیا (NVIDIA) از مدل Nemotron 3 Ultra پرده برداشت؛ یک مدل استدلالی (Reasoning Model) — شبیه شطرنجبازی که قبل از هر حرکت، چندین گام جلوتر را میبیند — با ۵۵۰ میلیارد پارامتر که دسترسی بازترین صنعت را به یک سیستم کلاس جهانی فراهم میکند.
به نقل از وبسایت dev.to، این انتشار شامل وزنها، دادههای آموزشی و محیطهای یادگیری تقویتی تحت مجوز OpenMDW v1.1 است. این اقدام در حالی رخ میدهد که جنبش «وزنهای باز» در حال بلوغ است. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، هدف دیگر تنها تقلید از مدلهای بسته نیست، بلکه شکست دادن آنها در بحث هزینه و قابلیت حسابرسی است.

این مدل از معماری ترکیبی Mamba-Transformer با ساختار ترکیب خبرهها (Mixture of Experts) — چیزی شبیه به تیمی از متخصصان که برای هر سؤال فقط فرد خبره در آن حوزه فراخوانده میشود — بهره میبرد. طبق مستندات فنی انویدیا، مشخصات کلیدی این مدل عبارتند از:
- پارامترهای کل: ۵۵۰ میلیارد (تنها ۵۵ میلیارد پارامتر برای هر توکن فعال میشوند).
- بهرهوری: نسبت پراکندگی ۱۰:۱ که هزینه استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند، مثل خودِ آشپزی و نه دورهی آموزش — را به یکدهم مدلهای متراکم کاهش میدهد. انویدیا پیش از این نیز برای بهینهسازی این فرآیند، سامانه Dynamo Snapshot را برای کاهش چشمگیر زمان Cold Start در استنتاج مدلها معرفی کرده بود.
- توان عملیاتی: بیش از ۳۰۰ توکن (Token) در ثانیه روی سختافزارهای انویدیا.
- پنجره زمینه (Context Window): ۱ میلیون توکن؛ یعنی مثل میز کاری بسیار بزرگی که میتواند کل کدهای یک پروژه را همزمان در ذهن نگه دارد.
- نسخهها: ارائه در مدلهای Base، Instruct و GenRM.
برای مدیران کسبوکار و مهندسان ارشد، این یعنی اجرای استدلالی در سطح GPT-5.5 روی سختافزار شخصی بدون پرداخت مالیات توکنی. انویدیا با انتشار «دستور پخت» و تفکیک دادهها، به شرکتها اجازه میدهد سوگیریها یا نشت دادهها را بررسی کنند و مدل را دقیقاً با متدهای آزمایشگاه تنظیم دقیق (Fine-tuning) — مثل وقتی که به یک پزشک عمومی، تخصص پوست میدهیم تا در یک حوزه دقیق شود — کنند.
گام بعدی شما
- بررسی نسخهی GenRM برای ساخت مدلهای پاداش تخصصی در کدنویسی عاملمحور.
- مقایسه هزینهی استنتاج مدل Nemotron با مدلهای بسته در مقیاس تولید.
- آزمایش قابلیتهای پنجره متنی ۱ میلیون توکنی برای تحلیل مستندات حجیم شرکت.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این معماری بر نسل جدید GPUها را در گزارش بعدی بررسی خواهیم کرد.




گفتگو