ArXiv: کاهش ۲۵.۵ درصدی زمان آموزش مدل‌های چند-GPU با روش Shaping حافظه مشترک

اگر میلیاردها تومان هزینه اجاره کلاسترهای GPU می‌کنید، باید بدانید بخش بزرگی از این قدرت پردازشی در لحظات انتقال داده‌ها عملاً بلااستفاده می‌ماند و هزینه‌ی شما را می‌سوزاند.

طبق گزارش منتشرشده در ۹ ژوئن ۲۰۲۶ در arxiv.org، گلوگاه اصلی در سامانه‌های یادگیری ماشین مقیاس‌بزرگ، اجرای متوالی (Sequential) محاسبات و ارتباطات جمعی است؛ وضعیتی که سخت‌افزارهای گران‌قیمت را در حالت بیکار رها می‌کند.

با رشد اندازه مدل‌ها، سربار ارتباطاتی به یک محدودیت تعیین‌کننده تبدیل شده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های مقیاس‌پذیری مدل‌های توزیع‌شده اشاره کردیم، عدم توزیع بهینه منابع بین عملیات ریاضی (Computation) و انتقال داده بین گره‌ها (Communication)، بهره‌وری سخت‌افزار را به شدت کاهش می‌دهد.

این پژوهش برای حل این مشکل، دو کنترل زمان-اجرایی (Runtime) قابل-حمل ارائه می‌دهد:

شکل‌دهی اشغال حافظه مشترک (Shared-memory occupancy shaping): تنظیم میزان حافظه اختصاص‌یافته به هر بلوک برای مدیریت حضور هسته‌های محاسباتی.
اولویت‌بندی زمان‌بندی (Scheduling priority): اختصاص اولویت بالاتر به هسته‌های ارتباطاتی تا به محض در دسترس قرار گرفتن منابع، انتقال داده‌ها آغاز شود.

این متدولوژی روی پردازنده‌های NVIDIA A40، A100، H100 و AMD MI250X آزمایش شده و کاهش ۲۵.۵ درصدی در زمان کل اجرا را ثبت کرده است. نکته کلیدی این است که این نتیجه بدون هیچ تغییری در پیاده‌سازی هسته‌ها یا کتابخانه‌های اختصاصی سازندگان سخت‌افزار به‌دست آمده است.

از منظر مهندسی، این رویکرد این فرض قدیمی را که برای دستیابی به هم‌پوشانی بالا نیاز به بازنویسی دستی توابع ارتباطی سطح‌پایین است، به چالش می‌کشد. نویسندگان با تبدیل این مسئله از یک «بهینه‌سازی کد» به یک «چالش زمان‌بندی منابع»، مسیری به سوی زیرساخت‌های منعطف‌تر فراهم کرده‌اند.

گام بعدی شما

رصد کنید که آیا تکنیک‌های Occupancy Shaping در به‌روزرسانی‌های آتی چارچوب‌های PyTorch یا JAX برای خودکارسازی سرعت آموزش در کلاسترهای ناهمگن ادغام می‌شوند یا خیر.
بررسی کنید که آیا این روش در مدل‌های با پارامترهای بیشتر، اثر مشابهی بر کاهش زمان آموزش دارد.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — برای درک چگونگی مدیریت حافظه در نسل جدید، به تحلیل ما درباره‌ی معماری تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این پژوهش برای حل این مشکل، دو کنترل زمان-اجرایی (Runtime) قابل-حمل ارائه می‌دهد:

شکل‌دهی اشغال حافظه مشترک (Shared-memory occupancy shaping): تنظیم میزان حافظه اختصاص‌یافته به هر بلوک برای مدیریت حضور هسته‌های محاسباتی.
اولویت‌بندی زمان‌بندی (Scheduling priority): اختصاص اولویت بالاتر به هسته‌های ارتباطاتی تا به محض در دسترس قرار گرفتن منابع، انتقال داده‌ها آغاز شود.

گام بعدی شما

رصد کنید که آیا تکنیک‌های Occupancy Shaping در به‌روزرسانی‌های آتی چارچوب‌های PyTorch یا JAX برای خودکارسازی سرعت آموزش در کلاسترهای ناهمگن ادغام می‌شوند یا خیر.
بررسی کنید که آیا این روش در مدل‌های با پارامترهای بیشتر، اثر مشابهی بر کاهش زمان آموزش دارد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ArXiv: کاهش ۲۵.۵ درصدی زمان آموزش مدل‌های چند-GPU با روش Shaping حافظه مشترک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ArXiv: کاهش ۲۵.۵ درصدی زمان آموزش مدل‌های چند-GPU با روش Shaping حافظه مشترک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ArXiv: کاهش ۲۵.۵ درصدی زمان آموزش مدل‌های چند-GPU با روش Shaping حافظه مشترک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ArXiv: کاهش ۲۵.۵ درصدی زمان آموزش مدل‌های چند-GPU با روش Shaping حافظه مشترک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران