فرآیند انتشار در برابر رمزگشایی متوالی در مدل جدید انویدیا

تصور کنید دنیایی را که در آن تولید توکن‌ها به‌جای صف‌های طولانی و متوالی، به‌صورت موازی و هم‌زمان رخ دهد بدون اینکه دقت پاسخ‌ها به‌شدت افت کند. طبق تحلیل فنی MarkTechPost، انویدیا با مدل Nemotron-Labs-TwoTower این هدف را محقق کرده است؛ یک مدل انتشار (Diffusion Model) زبانی که توان عملیاتی (Throughput) تولید را ۲.۴۲ برابر بیشتر از مدل‌های استاندارد خودبازگشتی (Autoregressive) فراهم می‌کند.

مدل‌های خودبازگشتی سنتی به‌دلیل نیاز به رمزگشایی (Decoding) توکن‌ها به‌صورت تک‌تک، با یک گلوگاه مواجه‌اند. این فرآیند متوالی، سقفی برای سرعت تولید متن در مقیاس بالا ایجاد می‌کند. مدل‌های انتشار گسسته تلاش می‌کنند با تولید موازی توکن‌ها و اصلاح تکراری آن‌ها، این مشکل را حل کنند. طبق بر اساس مستندات انویدیا، اکثر مدل‌های انتشار موجود از یک شبکه واحد برای دو وظیفه استفاده می‌کردند: نمایش توکن‌های پاک و حذف نویز از توکن‌های مخدوش؛ موضوعی که معمولاً باعث ایجاد شکاف کیفی نسبت به مدل‌های پایه می‌شد.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی استنتاج در مدل‌های زبانی اشاره کردیم، حذف گلوگاه‌های متوالی کلید مقیاس‌پذیری است. Nemotron-Labs-TwoTower معماری سنتی انتشار را به دو بخش مجزا تقسیم می‌کند: یک «برج زمینه» (Context Tower) خودبازگشتیِ منجمد و یک «برج حذف نویز» (Denoiser Tower) آموزش‌دیده. هر دو برج بر پایه مدل Nemotron-3-Nano-30B-A3B بنا شده‌اند؛ یک مدل هیبریدی با وزن‌های باز (Open Weights) که لایه‌های Mamba-2، خودتوجهی (Self-attention) و ترکیب خبره‌ها (MoE) را ادغام می‌کند. این تلاش انویدیا برای بهینه‌سازی مدل‌های متن‌باز، در ادامه مسیر توسعه خانواده Nemotron است که پیش‌تر در مدل Ultra توانست در استدلال با مدل‌های بسته رقابت کند.

مشخصات فنی

تعداد پارامترها: مجموعاً حدود ۶۰ میلیارد پارامتر؛ پارامترهای فعال برای هر توکن در هر برج حدود ۳ میلیارد است.
معماری: ۵۲ لایه در هر برج، شامل ۲۳ لایه Mamba-2، ۶ لایه خودتوجهی و ۲۳ لایه MoE. بخش MoE از ۱۲۸ خبره قابل مسیریابی استفاده می‌کند که ۶ خبره فعال و ۲ خبره مشترک هستند.
داده‌های آموزش: برج حذف نویز روی ۲.۱ تریلیون توکن آموزش دیده، در حالی که ستون فقرات مدل از یک مجموعه پیش‌آموزش عظیم ۲۵ تریلیونی بهره برده است.
سخت‌افزار مورد نیاز: حالت انتشار کامل نیازمند ۲ عدد GPU مدل H100 با حدود ۵۹ گیگابایت حافظه BF16 برای هر کارت است. حالت خودبازگشتی تنها روی یک GPU ۸۰ گیگابایتی اجرا می‌شود.

سازوکار دو-برجی (Two-Tower)

این سامانه به‌صورت بلوک‌به‌بلوک عمل می‌کند. هر بلوک با توکن‌های [MASK] آغاز شده و برج حذف نویز در T مرحله آن‌ها را اصلاح می‌کند تا زمانی که توکن‌ها نهایی شوند. برج زمینه به‌صورت علی (Causal) روی پرامپت و توکن‌های تثبیت‌شده اجرا شده و KV Cache هر لایه و وضعیت‌های نهایی Mamba-2 را تولید می‌کند. حفظ قابلیت خودبازگشتی باعث پایداری مدل می‌شود.

درون هر بلوک، برج حذف نویز از توجه دوطرفه استفاده می‌کند اما نسبت به بلوک‌های پاکِ قبلی، علی باقی می‌ماند. نکته کلیدی این است که برج‌ها لایه-به-لایه به هم متصل شده‌اند؛ یعنی لایه i در برج حذف نویز، با لایه i در برج زمینه ارتباط برقرار می‌کند. این دسترسی چندمقیاسی به بازنمایی‌های ستون فقرات مدل، پیشرفتی چشم‌گیر نسبت به روش‌های قدیمی است که فقط آخرین حالت پنهان را ارسال می‌کردند.

دو تغییر تکمیلی نیز برای بهبود حذف نویز اعمال شده است:

لایه‌های Mamba-2 وضعیت اولیه خود را مستقیماً از وضعیت Mamba در برج زمینه می‌گیرند.
هر لایه توسط یک گام زمانی انتشار از طریق adaLN-single تعدیل می‌شود که تنها ۱.۵ میلیون پارامتر به مدل اضافه می‌کند.

بنچمارک‌های اجرا شده در دقت BF16 روی ۲ کارت H100 نشان می‌دهد که مدل در نقطه عملیاتی پیش‌فرض (آستانه اطمینان γ=0.8 و اندازه بلوک ۱۶)، ۹۸.۷ درصد از کیفیت مدل پایه را حفظ می‌کند. در حالی که دانش عمومی پایدار مانده است — امتیاز MMLU عدد ۷۸.۲۴ در برابر ۷۸.۵۶ مدل پایه است — وظایف پیچیده افت داشتند. به‌طور مشخص، نمره HumanEval از ۷۹.۲۷ به ۷۵.۵۸ و MATH-500 از ۸۴.۴۰ به ۸۰.۶۰ کاهش یافت که نشان‌دهنده افت نسبی در توانایی‌های کدنویسی و ریاضی است. در مقابل، ARC-Challenge با رسیدن به ۹۲.۶۶ درصد، بهبود اندکی داشت.

این چرخش معماری، موازنه بین سرعت و کیفیت را برای توسعه‌دهندگان تغییر می‌دهد. کاربران اکنون می‌توانند با تنظیم آستانه اطمینان (γ)، توان عملیاتی را دقیقاً کنترل کنند؛ کاهش γ باعث تثبیت توکن‌های بیشتر در هر گام و افزایش سرعت می‌شود، در حالی که افزایش آن کیفیت را حفظ می‌کند. این ویژگی به‌ویژه برای تیم‌های تولید Synthetic Data (داده‌های مصنوعی) که می‌توانند افت ۱.۳ درصدی کیفیت را در برابر افزایش ۲.۴۲ برابری سرعت بپذیرند، حیاتی است.

علاوه بر این، انتشار این مدل تحت لایسنس Open Model انویدیا اجازه استفاده تجاری از یک نقطه بازرسی (Checkpoint) واحد را می‌دهد که سه مسیر استنتاج متفاوت را پشتیبانی می‌کند: generate_mask_diffusion()، generate_mock_ar() و generate_ar(). این تطبیق‌پذیری به معنای آن است که یک تیم می‌تواند از همین مدل هم برای تولید دسته‌ای سریع و هم برای تأییدیه با دقت بالا استفاده کند.

توسعه‌دهندگان می‌توانند مدل را از طریق نقطه بازرسی nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 در Hugging Face آزمایش کنند. اگرچه مدل پایه در مقیاس حافظه و تطبیق‌پذیری قوی است، اما نیاز به دو GPU در حالت انتشار کامل همچنان یک محدودیت است.

گام بعدی شما

بررسی نقطه بازرسی مدل در Hugging Face برای ارزیابی میزان افت کیفیت در وظایف تخصصی کدنویسی.
آزمایش موازنه سرعت و کیفیت با تغییر مقدار آستانه اطمینان (γ) در محیط‌های تولید داده مصنوعی.
تحلیل اثر تنظیم دستوری (Instruction Tuning) بر روی تولیدات بلوکی انتشار در مقایسه با مدل‌های چت سنتی.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این معماری بر روی حافظه VRAM را در تحلیل ما درباره تراشه‌های Blackwell بررسی کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مشخصات فنی

تعداد پارامترها: مجموعاً حدود ۶۰ میلیارد پارامتر؛ پارامترهای فعال برای هر توکن در هر برج حدود ۳ میلیارد است.
معماری: ۵۲ لایه در هر برج، شامل ۲۳ لایه Mamba-2، ۶ لایه خودتوجهی و ۲۳ لایه MoE. بخش MoE از ۱۲۸ خبره قابل مسیریابی استفاده می‌کند که ۶ خبره فعال و ۲ خبره مشترک هستند.
داده‌های آموزش: برج حذف نویز روی ۲.۱ تریلیون توکن آموزش دیده، در حالی که ستون فقرات مدل از یک مجموعه پیش‌آموزش عظیم ۲۵ تریلیونی بهره برده است.
سخت‌افزار مورد نیاز: حالت انتشار کامل نیازمند ۲ عدد GPU مدل H100 با حدود ۵۹ گیگابایت حافظه BF16 برای هر کارت است. حالت خودبازگشتی تنها روی یک GPU ۸۰ گیگابایتی اجرا می‌شود.

سازوکار دو-برجی (Two-Tower)

دو تغییر تکمیلی نیز برای بهبود حذف نویز اعمال شده است:

لایه‌های Mamba-2 وضعیت اولیه خود را مستقیماً از وضعیت Mamba در برج زمینه می‌گیرند.
هر لایه توسط یک گام زمانی انتشار از طریق adaLN-single تعدیل می‌شود که تنها ۱.۵ میلیون پارامتر به مدل اضافه می‌کند.

گام بعدی شما

بررسی نقطه بازرسی مدل در Hugging Face برای ارزیابی میزان افت کیفیت در وظایف تخصصی کدنویسی.
آزمایش موازنه سرعت و کیفیت با تغییر مقدار آستانه اطمینان (γ) در محیط‌های تولید داده مصنوعی.
تحلیل اثر تنظیم دستوری (Instruction Tuning) بر روی تولیدات بلوکی انتشار در مقایسه با مدل‌های چت سنتی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرآیند انتشار در برابر رمزگشایی متوالی در مدل جدید انویدیا

مشخصات فنی

سازوکار دو-برجی (Two-Tower)

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرآیند انتشار در برابر رمزگشایی متوالی در مدل جدید انویدیا

مشخصات فنی

سازوکار دو-برجی (Two-Tower)

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرآیند انتشار در برابر رمزگشایی متوالی در مدل جدید انویدیا

مشخصات فنی

سازوکار دو-برجی (Two-Tower)

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرآیند انتشار در برابر رمزگشایی متوالی در مدل جدید انویدیا

مشخصات فنی

سازوکار دو-برجی (Two-Tower)

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران