چگونه TLX Block Attention با حذف سربارهای الگوریتمی، سرعت B200 را ۲.۵ برابر کرد؟
پژوهشگران پایتورچ با توسعه یک کرنل تخصصی در Triton، سرعت گذر بازگشتی در توجه بلوکی-قطری را برای پردازندههای B200 تا ۲.۵ برابر افزایش دادند. این بهینهسازی با حذف ذخیرهسازی…