چگونه پروتکل MRC هزینه‌ی توقف آموزش مدل‌های OpenAI را صفر کرد

تصور کنید یک کابل معیوب، آموزش مدلی را که میلیون‌ها دلار هزینه برداشته، در یک لحظه نابود کند. برای OpenAI، این ریسک غیرقابل قبول است و به همین دلیل معماری ارتباطی پردازنده‌ها را از پایه بازطراحی کرده‌اند.

در ۵ مه ۲۰۲۶، OpenAI مشخصات فنی پروتکل اتصال قابل‌اعتماد چندمسیره (Multipath Reliable Connection یا MRC) را از طریق پروژه محاسبات باز (Open Compute Project) منتشر کرد. به نقل از مستندات این شرکت، این پروتکل که با همکاری AMD، Broadcom، Intel، Microsoft و NVIDIA توسعه یافته، برای حذف اثر «تقویت‌کننده شکست» طراحی شده است؛ وضعیتی که در آن نوسانات کوچک در لینک‌های ارتباطی باعث توقف ثانیه‌ای یا کرش کامل فرآیند پیش‌آموزش می‌شود.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش هوش مصنوعی در مقیاس بزرگ

بر اساس مستندات منتشر شده، این پروتکل سه تغییر معماری بنیادین را معرفی می‌کند:

توپولوژی چندصفحه‌ای (Multi-plane Topology): به جای استفاده از یک لینک واحد ۸۰۰ گیگابیت بر ثانیه، MRC آن را به هشت صفحه ۱۰۰ گیگابیت تقسیم می‌کند. این سازوکار اجازه می‌دهد ۱۳۱,۰۰۰ پردازنده گرافیکی (GPU) تنها با دو لایه سوئیچ متصل شوند، در حالی که طراحی‌های سنتی به سه یا چهار لایه نیاز دارند.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش هوش مصنوعی در مقیاس بزرگ

پاشش تطبیقی بسته‌ها (Adaptive Packet Spraying): به جای اختصاص یک مسیر واحد برای انتقال داده، MRC بسته‌ها را در صدها مسیر پخش می‌کند. این روش به‌طور مجازی تراکم هسته را حذف کرده و از ایجاد «نقاط داغ» که سرعت آموزش همگام را کاهش می‌دهند، جلوگیری می‌کند.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش مقیاس‌بزرگ هوش مصنوعی

مسیریابی منبع SRv6 (SRv6 Source Routing): با استفاده از مسیریابی قطعه‌بندی IPv6 (IPv6 Segment Routing)، فرستنده مسیر دقیق هر بسته را تعیین می‌کند. این قابلیت اجازه می‌دهد سیستم در کمتر از یک میکروثانیه لینک‌های معیوب را دور بزند و نیاز به پروتکل‌های پیچیده مسیریابی پویا مانند BGP را از بین ببرد.

شبکه‌سازی ابررایانه برای تسریع آموزش بزرگ‌مقیاس هوش مصنوعی

برای مدیریت تراکم در مقصد، MRC از «هرس کردن بسته‌ها» استفاده می‌کند؛ جایی که سوئیچ‌ها تنها سرآیند (Header) بسته‌های متراکم را ارسال می‌کنند تا بازگشت سریع داده تحریک شود. این کار مانع از آن می‌شود که سیستم به‌اشتباه یک گلوگاه ساده را به عنوان شکست کامل مسیر شناسایی کند.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش بزرگ‌مقیاس هوش مصنوعی

همان‌طور که در تحلیل قبلی ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، افزایش تعداد پردازنده‌ها بدون مدیریت دقیق شبکه، منجر به بازدهی معکوس می‌شود. این معماری در حال حاضر در ابررایانه‌های NVIDIA GB200، از جمله مراکز داده Oracle Cloud Infrastructure در تگزاس و خوشه‌های Fairwater متعلق به مایکروسافت پیاده‌سازی شده است.

OpenAI اشاره کرد که در جریان آموزش یکی از مدل‌های پیشرو اخیر، آن‌ها توانستند چهار سوئیچ لایه اول را بدون هماهنگی با تیم‌های آموزش ری‌بوت کنند، زیرا MRC به‌طور خودکار مسیرهای جایگزین را فعال کرد.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش مقیاس‌بزرگ هوش مصنوعی

در حالی که پروژه‌ی Stargate مرزهای قدرت محاسباتی (Compute) را جابه‌جا می‌کند، صنعت اکنون باید تصمیم بگیرد که آیا این استاندارد باز جایگزین استک‌های شبکه اختصاصی خواهد شد یا خیر. این رویکرد در راستای استراتژی کلی OpenAI برای بازنگری در زیرساخت‌های ارتباطی است؛ همان‌طور که در بهینه‌سازی لایه‌های شبکه برای کاهش تأخیر مکالمات صوتی مشاهده کردیم، این شرکت به‌دنبال حذف گلوگاه‌های سنتی در تمامی مراحل چرخه حیات مدل‌هاست.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی مستندات فنی MRC در وب‌سایت Open Compute Project برای درک عمیق‌تر SRv6.
رصد گزارش‌های عملکردی خوشه‌های GB200 در محیط‌های ابری.
تحلیل اثر کاهش لایه‌های سوئیچ بر تأخیر (Latency) در مدل‌های استدلالی بزرگ.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش هوش مصنوعی در مقیاس بزرگ

بر اساس مستندات منتشر شده، این پروتکل سه تغییر معماری بنیادین را معرفی می‌کند:

توپولوژی چندصفحه‌ای (Multi-plane Topology): به جای استفاده از یک لینک واحد ۸۰۰ گیگابیت بر ثانیه، MRC آن را به هشت صفحه ۱۰۰ گیگابیت تقسیم می‌کند. این سازوکار اجازه می‌دهد ۱۳۱,۰۰۰ پردازنده گرافیکی (GPU) تنها با دو لایه سوئیچ متصل شوند، در حالی که طراحی‌های سنتی به سه یا چهار لایه نیاز دارند.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش هوش مصنوعی در مقیاس بزرگ

پاشش تطبیقی بسته‌ها (Adaptive Packet Spraying): به جای اختصاص یک مسیر واحد برای انتقال داده، MRC بسته‌ها را در صدها مسیر پخش می‌کند. این روش به‌طور مجازی تراکم هسته را حذف کرده و از ایجاد «نقاط داغ» که سرعت آموزش همگام را کاهش می‌دهند، جلوگیری می‌کند.

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش مقیاس‌بزرگ هوش مصنوعی

مسیریابی منبع SRv6 (SRv6 Source Routing): با استفاده از مسیریابی قطعه‌بندی IPv6 (IPv6 Segment Routing)، فرستنده مسیر دقیق هر بسته را تعیین می‌کند. این قابلیت اجازه می‌دهد سیستم در کمتر از یک میکروثانیه لینک‌های معیوب را دور بزند و نیاز به پروتکل‌های پیچیده مسیریابی پویا مانند BGP را از بین ببرد.

شبکه‌سازی ابررایانه برای تسریع آموزش بزرگ‌مقیاس هوش مصنوعی

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش بزرگ‌مقیاس هوش مصنوعی

شبکه‌سازی ابررایانه‌ها برای تسریع آموزش مقیاس‌بزرگ هوش مصنوعی

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی مستندات فنی MRC در وب‌سایت Open Compute Project برای درک عمیق‌تر SRv6.
رصد گزارش‌های عملکردی خوشه‌های GB200 در محیط‌های ابری.
تحلیل اثر کاهش لایه‌های سوئیچ بر تأخیر (Latency) در مدل‌های استدلالی بزرگ.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه پروتکل MRC هزینه‌ی توقف آموزش مدل‌های OpenAI را صفر کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه پروتکل MRC هزینه‌ی توقف آموزش مدل‌های OpenAI را صفر کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه پروتکل MRC هزینه‌ی توقف آموزش مدل‌های OpenAI را صفر کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه پروتکل MRC هزینه‌ی توقف آموزش مدل‌های OpenAI را صفر کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران