رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

اگر به دنبال کاهش هزینه‌های آموزش مدل‌های زبانی با دقت FP4 هستید، باید بدانید که مشکل اصلی نه در کمبود تصادفی‌سازی، بلکه در ساختار گرادینت‌هاست. این یافته نشان می‌دهد که تلاش برای پایداری از طریق افزودن نویز، در واقع مسیری اشتباه است.

گذار از دقت BF16 به FP4 وعده‌ی کاهش چشمگیر در مصرف حافظه و قدرت محاسباتی (Compute) را می‌دهد، اما پایداری آموزش تا کنون دست‌نیافتنی بوده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) و بهینه‌سازی حافظه اشاره کردیم، حفظ دقت در لایه‌های پایین‌تر معماری، سخت‌ترین بخش توسعه مدل‌های بنیادی است.

بر اساس مستندات پژوهشی که در ۱۲ مه ۲۰۲۶ منتشر شد، تیمی از محققان با استفاده از مدل Llama 3.1-8B روی مجموعه داده‌های C4، سه مرحله از کوانتیزاسیون را ایزوله کردند: انتشار پیشرو (Fprop)، گرادینت‌های فعال‌ساز (Dgrad) و گرادینت‌های وزن (Wgrad). به نقل از گزارش منتشرشده در arxiv.org، کوانتیزاسیون Wgrad عامل اصلی تخریب همگرایی در مدل بود. این تیم مداخلات مختلفی را روی پردازنده‌های گرافیکی AMD Instinct MI355X آزمایش کردند:

گرد کردن تصادفی (Stochastic Rounding) و چرخش‌های تصادفی هادامار نتوانستند آموزش را پایدار کنند.
چرخش‌های قطعی هادامار (Deterministic Hadamard Rotations) به‌طور مداوم پایداری بهینه‌سازی را بازگرداندند.

این نتیجه، فرضیات پیشین درباره‌ی نویز کوانتیزاسیون را به‌طور بنیادی تغییر می‌دهد. طبق اعلام پژوهشگران، ناپایداری در FP4 نه به دلیل نبود تصادفی‌سازی، بلکه ناشی از خطاهای ریزمقیاس ساختاریافته در مسیرهای حساس گرادینت است. برای متخصصان این بدان معناست که تمرکز باید از «افزودن نویز» به «تحولات ساختاری قطعی» برای حفظ یکپارچگی گرادینت‌ها تغییر یابد.

گام بعدی شما

بررسی امکان پیاده‌سازی چرخش‌های قطعی در خط‌لوله‌های (Pipelines) کوانتیزاسیون سفارشی.
رصد به‌روزرسانی‌های سخت‌افزاری برای تبدیل این چرخش‌ها به دستورات بومی (Native Primitives) در GPUها.
ارزیابی اثر این متد بر کاهش زمان پیش‌آموزش (Pretraining) در مدل‌های کوچک‌تر.

اما این بهینه‌سازی‌ها تنها بخشی از پازل است؛ تأثیر این متدها بر سرعت استنتاج (Inference) را در تحلیل ما درباره‌ی تراشه‌های نسل بعد بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گرد کردن تصادفی (Stochastic Rounding) و چرخش‌های تصادفی هادامار نتوانستند آموزش را پایدار کنند.
چرخش‌های قطعی هادامار (Deterministic Hadamard Rotations) به‌طور مداوم پایداری بهینه‌سازی را بازگرداندند.

گام بعدی شما

بررسی امکان پیاده‌سازی چرخش‌های قطعی در خط‌لوله‌های (Pipelines) کوانتیزاسیون سفارشی.
رصد به‌روزرسانی‌های سخت‌افزاری برای تبدیل این چرخش‌ها به دستورات بومی (Native Primitives) در GPUها.
ارزیابی اثر این متد بر کاهش زمان پیش‌آموزش (Pretraining) در مدل‌های کوچک‌تر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از علت واگرایی آموزش FP4 و نقش چرخش‌های قطعی هادامار

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران