درون معماری ترنسفورمر؛ گذار از پردازش خطی به مکانیسم خودتوجهی

تصور کنید قرار است یک سند فنی طولانی را تحلیل کنید؛ آیا کلمه به کلمه پیش می‌روید یا ابتدا نگاهی کلی به کل صفحه می‌اندازید تا نقاط کلیدی را پیدا کنید؟ این تفاوت در نگاه، دقیقاً همان نقطه‌ای است که در ۱۲ ژوئن ۲۰۱۷ با انتشار یک مقاله ریاضی توسط پژوهشگران گوگل، مسیر تاریخ هوش مصنوعی تغییر کرد. این رویکرد «نوار نقاله» در زبان، همان روش سنتی شبکه‌های عصبی متوالی بود که دورانش عملاً با یک معادله ریاضی به پایان رسید.

مقاله «Attention Is All You Need» معماری ترنسفورمر (Transformer) و هسته مرکزی آن یعنی خودتوجهی (Self-Attention) را معرفی کرد. طبق مستندات فنی، امروزه تقریباً تمام مدل‌های زبانی بزرگ — از GPT و Claude گرفته تا Gemini، Llama، DeepSeek و Mistral — بر پایه همین شالوده بنا شده‌اند.

برای درک این تأثیر، تصور کنید از ۱۰ مهندس نرم‌افزار می‌خواهید یک تغییر کد (Pull Request) را خلاصه کنند. یک مهندس هر خط را از بالا تا پایین می‌خواند. مهندس دیگر بلافاصله به سراغ فایل‌هایی می‌رود که به نظرش مرتبط‌تر هستند. یک مهندس ارشد اما بیشتر کد را سریع مرور می‌کند اما روی بخش‌هایی که به احراز هویت، هم‌روندی (Concurrency) یا عملکرد (Performance) اثر می‌گذارند، توجه شدیدی می‌کند. او تمام خطوط را با یک شدت یکسان نمی‌خواند، بلکه «توجه» می‌کند. این مشاهده انسانی، منطق اصلی ترنسفورمر است. در واقع، درک درست از نحوه تعامل با این مدل‌ها نیازمند تغییر نگاه است، همان‌طور که رویکرد استدلال فعال در برابر مصرف غیرفعال کد نشان می‌دهد که چگونه تغییر متدولوژی تعامل می‌تواند خروجی‌های دقیق‌تری حاصل کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی تکامل مدل‌های بنیادی اشاره کردیم، پیش از این تحول، هوش مصنوعی برای نزدیک به ۲۰ سال از شبکه‌های عصبی بازگشتی (RNN) و بعدها از مدل‌های LSTM و GRU استفاده می‌کرد. این مدل‌ها کلمات را یکی‌یکی می‌خواندند و هم‌زمان با پیشروی، یک حالت پنهان (Hidden State) را به‌روز می‌کردند. مثلاً در جمله «حیوان از جاده رد نشد چون خسته بود»، یک RNN آن را به صورت خطی پردازش می‌کرد: حیوان $\downarrow$ از $\downarrow$ جاده $\downarrow$ رد $\downarrow$ نشد $\downarrow$ ... $\downarrow$ خسته.

این روش شبیه بازی «گوش به گوش» در کودکان است؛ تصور کنید تا زمانی که یک RNN به کلمه «آن» یا «خسته» برسد، اطلاعات مربوط به «حیوان» باید از شش یا هفت مرحله محاسباتی میانی عبور کند. طبق گزارش‌های تخصصی، هر بار که اطلاعات به جلو منتقل می‌شود، مقدار کمی نویز وارد می‌شود. این مشکل که محوشدن گرادیان (Vanishing Gradient) نام دارد، باعث می‌شد ثبت وابستگی‌های دور-برد تقریباً غیرممکن شود، زیرا اطلاعات ابتدای یک جمله طولانی اغلب در انتها کاملاً تغییر شکل می‌یافت یا به‌طور کلی گم می‌شد.

این ماهیت متوالی، یک گلوگاه سخت‌افزاری عظیم ایجاد کرد. چون کلمه B تا پایان پردازش کلمه A نمی‌توانست پردازش شود، واحد پردازش گرافیکی (GPU) — که تخصصش انجام هم‌زمان هزاران محاسبه موازی است — عملاً بسیار کمتر از ظرفیتش استفاده می‌شد. صنعت به راهی نیاز داشت که هر کلمه در یک توالی بتواند هم‌زمان به تمام کلمات دیگر «نگاه» کند. این تغییر از پردازش متوالی به توجه موازی بود که عصر GPT را گشود.

مکانیسم‌های خودتوجهی

خودتوجهی به مدل اجازه می‌دهد بر اساس بستر متن، وزن‌های اهمیت متفاوتی را به توکن (Token) — که مثل برش‌های کوچک یک کیک طولانی برای مدل است — اختصاص دهد. در این حالت، مدل دیگر نیازی ندارد یک حالت را «به خاطر بسپارد»، بلکه پیش از تصمیم‌گیری درباره اینکه یک توکن خاص باید چه چیزی را نمایندگی کند، صرفاً با کل جمله مشورت می‌کند.

مثلاً در جمله «جایزه در چمدان جا نشد چون خیلی کوچک بود»، مدل باید تعیین کند که «آن» یا «کوچک» به جایزه اشاره دارد یا چمدان. در حالی که انسان‌ها به‌طور طبیعی برای حل این ابهام به عقب نگاه می‌کنند، ترنسفورمرها همین عملیات را به صورت ریاضی انجام می‌دهند. این فرآیند تبدیل کلمات به مفاهیم ریاضی در واقع همان منطق بردارهای معنایی است که در سیستم‌های توصیه‌گر مدرن نیز برای درک روابط پنهان میان داده‌ها استفاده می‌شود.

به جای پردازش خطی، ترنسفورمر مقادیر نمایندگی را از طریق سه بردار مشخص برای هر توکن محاسبه می‌کند:

پرس‌وجو (Query): شبیه لیستی از سؤالاتی است که توکن در مورد آن‌ها کنجکاو است («من دنبال چه اطلاعاتی هستم؟»).
کلید (Key): شبیه یک نشان معرف است که تخصص توکن را توصیف می‌کند («من چه اطلاعاتی دارم؟»).
مقدار (Value): همان دانش واقعی است که توکن می‌تواند به اشتراک بگذارد («چه اطلاعاتی را باید ارائه کنم؟»).

از نظر ریاضی، مدل حاصل‌ضرب داخلی پرس‌وجو و کلید را محاسبه می‌کند تا میزان سازگاری آن‌ها را بسنجد: score = Query · Key. یک حاصل‌ضرب داخلی بزرگ به این معناست که مدل باید توجه کند؛ یک عدد کوچک یعنی می‌توان آن بخش را نادیده گرفت.

سپس این امتیاز توسط تابع سافت‌مکس (Softmax) نرمال می‌شود: weights = softmax(QKᵀ / √d). تقسیم بر جذر بُعد (√d) در اینجا یک جزئیات حیاتی است؛ زیرا از تولید اعداد بیش از حد بزرگ در ابعاد برداری بالا جلوگیری می‌کند. اگر این تقسیم نباشد، سافت‌مکس اشباع شده، گرادیان‌ها کوچک می‌شوند و آموزش مدل ناپایدار می‌گردد.

نمایش نحوه پیش‌بینی اپلیکیشن‌ها از رفتار کاربر با الگوریتم‌های یادگیری ماشین و تحلیل داده‌ها

در نهایت، خروجی به صورت ترکیب وزنی از مقادیر محاسبه می‌شود: Output = weights × V. این امر تضمین می‌کند که کلمه «آن» به یک ترکیب وزنی از سایر کلمات مرتبط تبدیل شود. در مثال چمدان، این وزن‌ها از مقادیر عظیمی از متون آموخته شده‌اند. نمایندگی کلمه «آن» به شدت به سمت «چمدان» (۰.۶۷) و «کوچک» (۰.۱۷) متمایل می‌شود، در حالی که وزن بسیار کمی به «جایزه» (۰.۰۸) یا «جا نشد» (۰.۰۵) می‌دهد.

چرخش انقلابی

عنوان «Attention Is All You Need» عامدانه تحریک‌آمیز بود، چون مکانیسم‌های توجه پیش از آن هم وجود داشتند. برای مثال، باهناوو (Bahdanau) و همکارانش در سال ۲۰۱۴ توجه را در ترجمه ماشینی عصبی معرفی کرده بودند. اما در آن نسخه‌های اولیه، توجه صرفاً یک افزونه یا مکمل برای شبکه‌های بازگشتی بود.

جسارت ترنسفورمر در این بود که بازگشت (Recurrence) و پیچش‌ها (Convolutions) را به‌طور کامل حذف کرد. معماری از یک زنجیره ساده Input → LSTM → LSTM → LSTM به پشته‌ای از لایه‌های Input → Self Attention → Feed Forward → Self Attention → Feed Forward تبدیل شد. این ساختار ده‌ها یا حتی صدها بار تکرار می‌شود. اگرچه برخی پژوهشگران در ابتدا حذف بازگشت را ریسک‌بردار می‌دیدند، اما این روش به‌سرعت به استاندارد طلایی عملکرد هوش مصنوعی تبدیل شد.

هزینهٔ زمینهٔ نامحدود

این جهش معماری، هزینه محاسباتی سنگینی داشت. چون هر توکن باید خودش را با تمام توکن‌های دیگر مقایسه کند، پیچیدگی به صورت مربعی (Quadratic) افزایش می‌یابد. در یک پنجره زمینه (Context Window) با ۴۰۹۶ توکن — که شبیه میز کاری است که فقط جای چند ورق دارد — مدل در هر لایه حدود ۱۶.۸ میلیون مقایسه انجام می‌دهد (۴۰۹۶ × ۴۰۹۶).

مدل‌های پیشرو مدرن این هزینه را از طریق موارد زیر تشدید می‌کنند:

مقیاس: میلیاردها پارامتر و ده‌ها لایه پشته‌شده ترنسفورمر.
پیچیدگی: اجرای موازی چندین «سرِ توجه» (Attention Heads) (مثلاً ۳۲ سر) که هر کدام به جنبه‌های متفاوتی از متن توجه می‌کنند.
سخت‌افزار: نیاز به هزاران GPU که به‌طور مداوم برای هفته‌ها یا ماه‌ها در حال پردازش باشند.

به نقل از تحلیل‌های فنی شریجیت ونکاترامانا، اقتصاد این مقیاس تکان‌دهنده است. قیمت یک GPU می‌تواند ده‌ها هزار دلار باشد. وقتی هزینه‌های برق، خنک‌کننده، شبکه و آزمایش‌های شکست‌خورده را هم در نظر بگیرید، هزینه آموزش بزرگ‌ترین مدل‌ها می‌تواند به ده‌ها یا حتی صدها میلیون دلار برسد.

همین هزینه، موج دوم نوآوری‌ها را برای بهینه کردن خودتوجهی در مقیاس بزرگ ایجاد کرد. این امر منجر به توسعه تکنیک‌های متمرکز بر بهره‌وری شد، از جمله:

توجه برق‌آسا (FlashAttention): بهینه‌سازی دسترسی به حافظه برای افزایش سرعت محاسبات توجه.
توجه پرس‌وجوی گروهی (Grouped-Query Attention): کاهش تعداد سرهای کلید (K) و مقدار (V) برای ذخیره حافظه.
توجه خطی و پراکنده (Sparse and Linear Attention): تلاش برای کاهش پیچیدگی مربعی به یک مقیاس خطی قابل مدیریت‌تر.

تحلیل: تغییر پارادایم هوش مصنوعی

برای متخصصان، انتقال به خودتوجهی یعنی تغییر از «پردازش» به «نگاشت». زبان اساساً متوالی نیست؛ روابط اغلب در کل سند پخش شده‌اند. یک متغیر که صدها خط قبل در یک فایل کد تعریف شده، روی خط فعلی اثر می‌گذارد و یک ضمیر ممکن است به اسمی اشاره کند که چندین پاراگراف قبل آمده است.

ترنسفورمر با حذف پیش‌فرضِ اینکه زبان باید کلمه به کلمه پردازش شود، اجازه داد هوش مصنوعی این روابط دور-برد را به‌طور طبیعی مدل کند. این تغییر، اقتصاد هوش مصنوعی را دگرگون کرد. توانایی اشباع کامل توان پردازشی GPU باعث شد قوانین مقیاس‌پذیری (Scaling Laws) واقعاً جواب دهند؛ یعنی اضافه کردن داده و پارامتر بیشتر، منجر به جهش‌های پیش‌بینی‌پذیر در توانایی مدل شد. بدون ترنسفورمر، رقابت برای مدل‌های تریلیون-پارامتری از نظر محاسباتی غیرممکن بود.

در نهایت، موفقیت LLMها نه در پیچیده‌تر کردن مدل، بلکه در حذف یک محدودیت بود. با اجازه دادن به مدل برای تصمیم‌گیری درباره اینکه چه چیزی «شایسته توجه» است به جای مجبور کردن آن به خواندن به ترتیب، پژوهشگران نوعی شهود مصنوعی خلق کردند. هر آنچه پس از آن آمد — از GPT-2 تا ChatGPT — بر پایه همین یک درک واحد بنا شد.

برای مشاهده این مکانیسم در عمل، می‌توانید بررسی کنید که مدل‌های نسل فعلی چگونه زمینه‌های بسیار طولانی را مدیریت می‌کنند یا بهره‌وری‌های خاص پیاده‌سازی‌های توجه خطی را مورد تحقیق قرار دهید. این یادآور این است که انقلابی‌ترین ایده‌ها همیشه روش‌های جدید محاسباتی نیستند، بلکه روش‌های جدیدی برای تصمیم‌گیری درباره این هستند که چه چیزی شایسته توجه ماست.

گام بعدی شما

بررسی نحوه مدیریت زمینه‌های بسیار طولانی (Long Context) در مدل‌های نسل جدید.
مطالعه پیاده‌سازی‌های «توجه خطی» برای درک نحوه کاهش هزینه‌های استنتاج.
آزمایش تفاوت پاسخ‌دهی مدل‌های مختلف در تحلیل متون طولانی برای سنجش میزان «گم شدن در وسط» (Lost in the Middle).

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.