اگر تصور میکنید دقت FP8 تنها برای مدلهای زبانی بزرگ است، با بزرگترین گلوگاه مدلهای توصیهگر مواجهید. باید بدانید که تا پیش از این، تلاش برای کاهش دقت محاسباتی در این مدلها، یا منجر به تخریب کیفیت پاسخها میشد و یا زمان آموزش را بهطور غیرمنطقی افزایش میداد.
همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، مدلهای توصیهگر برخلاف LLMها، حساسیت عددی بسیار بالایی دارند. این مدلها عمدتاً بر پایه ضرب ماتریسهای کوچک (GEMMs) و محیطهای آموزشی با ترافیک ارتباطی بالا هستند؛ به همین دلیل، یک تعویض سادهی کرنل (Kernel) معمولاً نتیجهای جز ناپایداری یا کاهش دقت ندارد.
بر اساس مستندات منتشر شده در ۱۲ مه ۲۰۲۶، چارچوب LoKA برای حل این مشکل از یک طراحی مشترک سیستم-مدل در سه سطح استفاده میکند:
- LoKA Probe: ابزاری برای بنچمارک آنلاین که با تحلیل آماری وزنها و فعالسازها، لایههای «امن» و «ناامن» را برای استفاده از دقت پایین شناسایی میکند.
- LoKA Mods: کتابخانهای از تطبیقهای مدل که برای بهبود پایداری عددی و کارایی اجرا طراحی شدهاند.
- LoKA Dispatch: یک سیستم زمان-اجرا (Runtime) که بر اساس نیازهای دقت شناساییشده توسط Probe، سریعترین کرنل FP8 را انتخاب میکند.
طبق گزارش پژوهشگران، ارزش محوری این سیستم در توانایی کمیسازی خطاهای هر لایه بهصورت لحظهای است. این رویکرد، این فرض قدیمی در صنعت را که پذیرش دقت FP8 (FP8 Precision) صرفاً یک مسئلهی مهندسی کرنل است، به چالش میکشد و ثابت میکند که پروفایلینگ آماری (Statistical Profiling) تنها راه حفظ دقت در بارهای کاری حساس است.
گام بعدی شما
- مهندسان زیرساخت باید ادغام اصول طراحی مشترک (Co-design) را در کتابخانههای یادگیری عمیق دنبال کنند.
- بررسی کنید که آیا این چارچوب میتواند برای سایر معماریهای غیر-LLM که با مقیاسپذیری دقت پایین مشکل دارند، تعمیم یابد یا خیر.
- تحلیل کنید که کاهش هزینه استنتاج (Inference Cost) در مدلهای توصیهگر، چه تأثیری بر استراتژی سختافزاری شما دارد.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو