تصور کنید دنیایی را که در آن تولید توکنها بهجای صفهای طولانی و متوالی، بهصورت موازی و همزمان رخ دهد بدون اینکه دقت پاسخها بهشدت افت کند. طبق تحلیل فنی MarkTechPost، انویدیا با مدل Nemotron-Labs-TwoTower این هدف را محقق کرده است؛ یک مدل انتشار (Diffusion Model) زبانی که توان عملیاتی (Throughput) تولید را ۲.۴۲ برابر بیشتر از مدلهای استاندارد خودبازگشتی (Autoregressive) فراهم میکند.
مدلهای خودبازگشتی سنتی بهدلیل نیاز به رمزگشایی (Decoding) توکنها بهصورت تکتک، با یک گلوگاه مواجهاند. این فرآیند متوالی، سقفی برای سرعت تولید متن در مقیاس بالا ایجاد میکند. مدلهای انتشار گسسته تلاش میکنند با تولید موازی توکنها و اصلاح تکراری آنها، این مشکل را حل کنند. طبق بر اساس مستندات انویدیا، اکثر مدلهای انتشار موجود از یک شبکه واحد برای دو وظیفه استفاده میکردند: نمایش توکنهای پاک و حذف نویز از توکنهای مخدوش؛ موضوعی که معمولاً باعث ایجاد شکاف کیفی نسبت به مدلهای پایه میشد.
همانطور که در تحلیلهای قبلی ما دربارهی بهینهسازی استنتاج در مدلهای زبانی اشاره کردیم، حذف گلوگاههای متوالی کلید مقیاسپذیری است. Nemotron-Labs-TwoTower معماری سنتی انتشار را به دو بخش مجزا تقسیم میکند: یک «برج زمینه» (Context Tower) خودبازگشتیِ منجمد و یک «برج حذف نویز» (Denoiser Tower) آموزشدیده. هر دو برج بر پایه مدل Nemotron-3-Nano-30B-A3B بنا شدهاند؛ یک مدل هیبریدی با وزنهای باز (Open Weights) که لایههای Mamba-2، خودتوجهی (Self-attention) و ترکیب خبرهها (MoE) را ادغام میکند. این تلاش انویدیا برای بهینهسازی مدلهای متنباز، در ادامه مسیر توسعه خانواده Nemotron است که پیشتر در مدل Ultra توانست در استدلال با مدلهای بسته رقابت کند.
مشخصات فنی
- تعداد پارامترها: مجموعاً حدود ۶۰ میلیارد پارامتر؛ پارامترهای فعال برای هر توکن در هر برج حدود ۳ میلیارد است.
- معماری: ۵۲ لایه در هر برج، شامل ۲۳ لایه Mamba-2، ۶ لایه خودتوجهی و ۲۳ لایه MoE. بخش MoE از ۱۲۸ خبره قابل مسیریابی استفاده میکند که ۶ خبره فعال و ۲ خبره مشترک هستند.
- دادههای آموزش: برج حذف نویز روی ۲.۱ تریلیون توکن آموزش دیده، در حالی که ستون فقرات مدل از یک مجموعه پیشآموزش عظیم ۲۵ تریلیونی بهره برده است.
- سختافزار مورد نیاز: حالت انتشار کامل نیازمند ۲ عدد GPU مدل H100 با حدود ۵۹ گیگابایت حافظه BF16 برای هر کارت است. حالت خودبازگشتی تنها روی یک GPU ۸۰ گیگابایتی اجرا میشود.
سازوکار دو-برجی (Two-Tower)
این سامانه بهصورت بلوکبهبلوک عمل میکند. هر بلوک با توکنهای [MASK] آغاز شده و برج حذف نویز در T مرحله آنها را اصلاح میکند تا زمانی که توکنها نهایی شوند. برج زمینه بهصورت علی (Causal) روی پرامپت و توکنهای تثبیتشده اجرا شده و KV Cache هر لایه و وضعیتهای نهایی Mamba-2 را تولید میکند. حفظ قابلیت خودبازگشتی باعث پایداری مدل میشود.
درون هر بلوک، برج حذف نویز از توجه دوطرفه استفاده میکند اما نسبت به بلوکهای پاکِ قبلی، علی باقی میماند. نکته کلیدی این است که برجها لایه-به-لایه به هم متصل شدهاند؛ یعنی لایه i در برج حذف نویز، با لایه i در برج زمینه ارتباط برقرار میکند. این دسترسی چندمقیاسی به بازنماییهای ستون فقرات مدل، پیشرفتی چشمگیر نسبت به روشهای قدیمی است که فقط آخرین حالت پنهان را ارسال میکردند.
دو تغییر تکمیلی نیز برای بهبود حذف نویز اعمال شده است:
- لایههای Mamba-2 وضعیت اولیه خود را مستقیماً از وضعیت Mamba در برج زمینه میگیرند.
- هر لایه توسط یک گام زمانی انتشار از طریق adaLN-single تعدیل میشود که تنها ۱.۵ میلیون پارامتر به مدل اضافه میکند.
بنچمارکهای اجرا شده در دقت BF16 روی ۲ کارت H100 نشان میدهد که مدل در نقطه عملیاتی پیشفرض (آستانه اطمینان γ=0.8 و اندازه بلوک ۱۶)، ۹۸.۷ درصد از کیفیت مدل پایه را حفظ میکند. در حالی که دانش عمومی پایدار مانده است — امتیاز MMLU عدد ۷۸.۲۴ در برابر ۷۸.۵۶ مدل پایه است — وظایف پیچیده افت داشتند. بهطور مشخص، نمره HumanEval از ۷۹.۲۷ به ۷۵.۵۸ و MATH-500 از ۸۴.۴۰ به ۸۰.۶۰ کاهش یافت که نشاندهنده افت نسبی در تواناییهای کدنویسی و ریاضی است. در مقابل، ARC-Challenge با رسیدن به ۹۲.۶۶ درصد، بهبود اندکی داشت.
این چرخش معماری، موازنه بین سرعت و کیفیت را برای توسعهدهندگان تغییر میدهد. کاربران اکنون میتوانند با تنظیم آستانه اطمینان (γ)، توان عملیاتی را دقیقاً کنترل کنند؛ کاهش γ باعث تثبیت توکنهای بیشتر در هر گام و افزایش سرعت میشود، در حالی که افزایش آن کیفیت را حفظ میکند. این ویژگی بهویژه برای تیمهای تولید Synthetic Data (دادههای مصنوعی) که میتوانند افت ۱.۳ درصدی کیفیت را در برابر افزایش ۲.۴۲ برابری سرعت بپذیرند، حیاتی است.
علاوه بر این، انتشار این مدل تحت لایسنس Open Model انویدیا اجازه استفاده تجاری از یک نقطه بازرسی (Checkpoint) واحد را میدهد که سه مسیر استنتاج متفاوت را پشتیبانی میکند: generate_mask_diffusion()، generate_mock_ar() و generate_ar(). این تطبیقپذیری به معنای آن است که یک تیم میتواند از همین مدل هم برای تولید دستهای سریع و هم برای تأییدیه با دقت بالا استفاده کند.
توسعهدهندگان میتوانند مدل را از طریق نقطه بازرسی nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 در Hugging Face آزمایش کنند. اگرچه مدل پایه در مقیاس حافظه و تطبیقپذیری قوی است، اما نیاز به دو GPU در حالت انتشار کامل همچنان یک محدودیت است.
گام بعدی شما
- بررسی نقطه بازرسی مدل در Hugging Face برای ارزیابی میزان افت کیفیت در وظایف تخصصی کدنویسی.
- آزمایش موازنه سرعت و کیفیت با تغییر مقدار آستانه اطمینان (γ) در محیطهای تولید داده مصنوعی.
- تحلیل اثر تنظیم دستوری (Instruction Tuning) بر روی تولیدات بلوکی انتشار در مقایسه با مدلهای چت سنتی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این معماری بر روی حافظه VRAM را در تحلیل ما درباره تراشههای Blackwell بررسی کنید.




گفتگو