اگر تصور میکنید با استفاده از PyTorch ساختار ترنسفورمرها را میشناسید، احتمالاً فقط یک توهم زیبا را دنبال میکنید. حقیقت این است که لایههای انتزاعی مدرن، شما را از درک واقعی ریاضیات پشت پردهی هوش مصنوعی زاینده (Generative AI) دور میکنند.
پروژهی TRiP (TRansformer in Progress) با یک هدف جسورانه متولد شد: حذف کامل پایتون و بازگشت به ریشههای جبر خطی روی آرایههای اعشاری. طبق اعلام توسعهدهنده در مخزن گیتهاب این پروژه، TRiP بین مارس ۲۰۲۴ تا آگوست ۲۰۲۵ توسعه یافته تا «درک کامل از تمام لایهها» (Full-stack understanding) را از ضرب ماتریسها به بالا به برنامهنویسان بازگرداند.
بر اساس مستندات TRiP، این موتور سبکوزن قابلیتهای زیر را ارائه میدهد:
- پشتیبانی از معماریها: مدلهای Llama 2، Gemma 1.0/1.1، مدل چندوجهی (Multimodal) PaliGemma 1 و GPT-2.
- قابلیت آموزش: پیادهسازی کامل پسانتشار (Backpropagation) با استفاده از بهینهساز AdamW، نرخ یادگیری با کاهش کسینوسی (Cosine Annealing) و برش گرادیان (Gradient Clipping).
- مدیریت حافظه: استفاده از حالت بهینهشدهی RAM از طریق
mmapکه اجازه میدهد مدلهای بزرگ روی سختافزارهای محدود اجرا شوند. - فرمتهای سازگار: پشتیبانی از SafeTensors (HuggingFace) و فرمتهای Karpathy.
یک یافتهی فنی غافلگیرکننده در این پروژه این است که در پردازندههای مرکزی (CPU)، فرمت float32 بهطور مداوم عملکرد بهتری نسبت به bfloat16 و float16 دارد؛ چرا که CPUهای مصرفکننده فعلی برای عملیات ممیز شناور خاص این فرمتها بهینه نشدهاند.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازیهای سطح پایین (Low-level) در مدلهای زبانی اشاره کردیم، حذف لایههای میانی منجر به کنترل مطلق بر مصرف منابع میشود. TRiP قصد رقابت با کتابخانههای فوقسریع مثل llama.cpp را ندارد، بلکه مانند یک «کتاب درسی» زنده عمل میکند تا توسعهدهندگان دقیقاً ببینند گرادیانها چگونه در طول آموزش در شبکه جریان مییابند.
این رویکرد بازگشت به «سختافزار عریان» (Bare-metal) میتواند تعریف ما از بهینهسازی برای نسل بعدی رایانش لبه (Edge Computing) را تغییر دهد. اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- مخزن گیتهاب TRiP را بررسی کنید تا نحوه پیادهسازی عملیات ریاضی بدون کتابخانه را ببینید.
- تفاوت عملکرد float32 و bfloat16 را روی CPU خود تست کنید.
- سعی کنید یک مدل کوچک GPT-2 را با این موتور آموزش دهید تا جریان گرادیانها را ردیابی کنید.




گفتگو