اگر تصور کنید هوش مصنوعی چگونه در یک چشمبهمزدن کتابهای هزار صفحهای را میخواند، پاسخ در ساختار ریاضی «بلاک کامل ترنسفورمر» نهفته است. بدون این واحد معماری، مقیاسپذیری خیرهکنندهای که در ۲۲ ژوئن ۲۰۲۶ شاهد بودیم، از نظر محاسباتی غیرممکن بود.
این بلاک، واحد بنیادی معماری ترنسفورمر (Transformer Architecture) است که تعیین میکند مدلهای زبانی بزرگ (LLM) — شبیه کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — چگونه توالیهای متنی را تفسیر میکنند. طبق مستندات فنی، این ساختار اجازه میدهد ورودیها به نمایشهای سطحبالاتری تبدیل شوند تا الگوهایی که مدلهای سادهتر نادیده میگیرند، شناسایی شوند.
برای درک اهمیت این موضوع، باید به تاریخچه دادههای توالیمحور نگاه کنیم. پیش از این، شبکههای عصبی (Neural Network) — شبکهای از سلولهای کوچک، شبیه نقشهٔ مترو، که سیگنال را از ورودی به جواب میرساند — متن را کلمه به کلمه پردازش میکردند که باعث ایجاد گلوگاههای شدید میشد. همانطور که در تحلیلهای قبلی ما دربارهی روشهای زیر-ควادراتیک برای کاهش هزینه و انرژی اشاره کردیم، بلاک استاندارد ترنسفورمر با اجازه دادن به پردازش موازی، این مشکل را حل کرد. یعنی مدل بهجای حرکت خطی و کند، کل جمله را بهطور همزمان میبیند.
این توانایی در مدیریت توالیها، بهویژه برای مدلهایی که حجم عظیمی از داده را پردازش میکنند، حیاتی است. تصور کنید مترجمی میخواهد معنای یک جمله پیچیده را بفهمد؛ بهجای اینکه از چپ به راست بخواند و ابتدای جمله را فراموش کند، بلاک ترنسفورمر به مدل اجازه میدهد به تمام کلمات «نگاه» کند تا بفهمد کدامیک با هم مرتبط هستند. این طراحی بهطور خاص برای ثبت وابستگیهای دوربرد در متن، که برای ترجمه و خلاصهسازی ضروری است، ساخته شده است. در همین راستا، تلاشهایی برای بهینهسازی این فرآیند صورت گرفته است، مانند رویکرد معماری PHA که مصرف حافظه را در متون طولانی به شکل چشمگیری کاهش داد.
به نقل از تحلیلهای فنی PixelBank، قلب این بلاک «مکانیسم خودتوجهی» است. خودتوجهی (Self-Attention) به مدل اجازه میدهد به بخشهای مختلف توالی ورودی بهطور همزمان توجه کند و اهمیت هر بخش را بسنجد. این سیستم از سه ماتریس اصلی استفاده میکند:
- پرسوجو (Query): آنچه مدل بهدنبالش است.
- کلید (Key): اطلاعاتی که توکن فعلی در اختیار دارد.
- مقدار (Value): محتوای واقعی که باید به لایههای بعدی منتقل شود.

عملیات ریاضی این بخش با فرمول $\text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$ تعریف میشود که در آن $d_k$ ابعاد ماتریس کلید است. این محاسبه دقیقاً تعیین میکند یک کلمه چقدر باید به کلمه دیگر «توجه» کند.
پس از شناسایی روابط، دادهها به شبکه پیشخور (FFN) میروند. در حالی که مکانیسم توجه روی روابط تمرکز دارد، FFN خروجی را به نمایشهای پیچیدهتر تبدیل میکند. این شبکه از دو لایه خطی و یک تابع فعالساز ReLU برای ایجاد غیرخطی بودن استفاده میکند. فرمول آن به صورت $\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$ است که در آن $W$ و $b$ پارامترهای قابل یادگیری هستند.
معماری کلی ترنسفورمر از چندین بلاک روی هم چیده شده تشکیل شده است. برای آمادهسازی دادهها، این ساختار شامل موارد زیر است:
- لایههای بردار معنایی (Embedding layers): برای تبدیل توکنها به بردارها — شبیه کارت معرفی عددی برای هر واژه که همسایگانش را مشخص میکند.
- رمزگذاری موقعیت (Positional encoding): برای دادن حس ترتیب کلمات، چون پردازش بهصورت موازی است.
این ساختار در کاربردهایی مثل ترجمه ماشینی، خلاصهسازی متن و چتباتها نتایج پیشرو (State-of-the-art) به دست آورده است. با این حال، پیادهسازی عملی این مدلها به محاسبات عددی بهینه وابسته است. توسعهدهندگان باید ابزارهایی مثل NumPy را مسلط باشند، بهخصوص توابع جهانی (ufuncs) که عملیات روی آرایهها را بدون حلقههای کند پایتون انجام میدهند.
برای مثال، در چالشهای فنی PixelBank، پیادهسازی توابعی که آرایههای NumPy میگیرند و مقادیر sqrt (جذر)، square (مجذور) و abs (قدر مطلق) را برمیگردانند، ضروری است. این عملیاتها با استفاده از کد کامپایلشده C در NumPy انجام میشوند تا سربار مفسر پایتون حذف شود. رویکرد درست شامل تعریف تابع، اعمال عملیات برداریشده و ذخیره نتایج در یک دیکشنری است.
در نهایت، مهندسان باید این بلوکها را به آخرین پژوهشها متصل کنند. سرویس مقالات پژوهشی PixelBank با خلاصهسازی روزانه مقالات arXiv، به متخصصان بینایی ماشین و NLP کمک میکند تا بدون خواندن تمام صفحات، عصاره متدهای جدید مثل الگوریتمهای YOLO را استخراج کرده و دقت مدلهای خود را ارتقا دهند.
چرخش به سمت پردازش موازی و بلوکمحور، فرضیات مدلسازی توالی را تغییر داد. ما از «حافظه» شبکههای بازگشتی به «نمای کلی» دادهها رسیدیم. این یعنی مدلها میتوانند زمینه را در هزاران توکن حفظ کنند، هرچند که پایداری این مدلها در گامهای طولانی همیشه تضمینشده نیست و گاهی پدیده رانش هندسی در مسیرهای عملیاتی مدل مشاهده میشود.
گام بعدی شما
- برای درک عملی، توابع برداری NumPy را در محیط Colab پیادهسازی کنید تا سرعت تفاوت ufuncs با حلقههای for را ببینید.
- مفاهیم ماتریسهای Q، K و V را با رسم نمودار توجه (Attention Map) در مدلهای کوچک بررسی کنید.
- آخرین مقالات arXiv درباره بهبودهای لایه FFN را در PixelBank دنبال کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو