اگر به دنبال کاهش هزینههای آموزش مدلهای زبانی با دقت FP4 هستید، باید بدانید که مشکل اصلی نه در کمبود تصادفیسازی، بلکه در ساختار گرادینتهاست. این یافته نشان میدهد که تلاش برای پایداری از طریق افزودن نویز، در واقع مسیری اشتباه است.
گذار از دقت BF16 به FP4 وعدهی کاهش چشمگیر در مصرف حافظه و قدرت محاسباتی (Compute) را میدهد، اما پایداری آموزش تا کنون دستنیافتنی بوده است. همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) و بهینهسازی حافظه اشاره کردیم، حفظ دقت در لایههای پایینتر معماری، سختترین بخش توسعه مدلهای بنیادی است.
بر اساس مستندات پژوهشی که در ۱۲ مه ۲۰۲۶ منتشر شد، تیمی از محققان با استفاده از مدل Llama 3.1-8B روی مجموعه دادههای C4، سه مرحله از کوانتیزاسیون را ایزوله کردند: انتشار پیشرو (Fprop)، گرادینتهای فعالساز (Dgrad) و گرادینتهای وزن (Wgrad). به نقل از گزارش منتشرشده در arxiv.org، کوانتیزاسیون Wgrad عامل اصلی تخریب همگرایی در مدل بود. این تیم مداخلات مختلفی را روی پردازندههای گرافیکی AMD Instinct MI355X آزمایش کردند:
- گرد کردن تصادفی (Stochastic Rounding) و چرخشهای تصادفی هادامار نتوانستند آموزش را پایدار کنند.
- چرخشهای قطعی هادامار (Deterministic Hadamard Rotations) بهطور مداوم پایداری بهینهسازی را بازگرداندند.
این نتیجه، فرضیات پیشین دربارهی نویز کوانتیزاسیون را بهطور بنیادی تغییر میدهد. طبق اعلام پژوهشگران، ناپایداری در FP4 نه به دلیل نبود تصادفیسازی، بلکه ناشی از خطاهای ریزمقیاس ساختاریافته در مسیرهای حساس گرادینت است. برای متخصصان این بدان معناست که تمرکز باید از «افزودن نویز» به «تحولات ساختاری قطعی» برای حفظ یکپارچگی گرادینتها تغییر یابد.
گام بعدی شما
- بررسی امکان پیادهسازی چرخشهای قطعی در خطلولههای (Pipelines) کوانتیزاسیون سفارشی.
- رصد بهروزرسانیهای سختافزاری برای تبدیل این چرخشها به دستورات بومی (Native Primitives) در GPUها.
- ارزیابی اثر این متد بر کاهش زمان پیشآموزش (Pretraining) در مدلهای کوچکتر.
اما این بهینهسازیها تنها بخشی از پازل است؛ تأثیر این متدها بر سرعت استنتاج (Inference) را در تحلیل ما دربارهی تراشههای نسل بعد بررسی خواهیم کرد.




گفتگو