تصور کنید قرار است یک سند فنی طولانی را تحلیل کنید؛ آیا کلمه به کلمه پیش میروید یا ابتدا نگاهی کلی به کل صفحه میاندازید تا نقاط کلیدی را پیدا کنید؟ این تفاوت در نگاه، دقیقاً همان نقطهای است که در ۱۲ ژوئن ۲۰۱۷ با انتشار یک مقاله ریاضی توسط پژوهشگران گوگل، مسیر تاریخ هوش مصنوعی تغییر کرد. این رویکرد «نوار نقاله» در زبان، همان روش سنتی شبکههای عصبی متوالی بود که دورانش عملاً با یک معادله ریاضی به پایان رسید.
مقاله «Attention Is All You Need» معماری ترنسفورمر (Transformer) و هسته مرکزی آن یعنی خودتوجهی (Self-Attention) را معرفی کرد. طبق مستندات فنی، امروزه تقریباً تمام مدلهای زبانی بزرگ — از GPT و Claude گرفته تا Gemini، Llama، DeepSeek و Mistral — بر پایه همین شالوده بنا شدهاند.
برای درک این تأثیر، تصور کنید از ۱۰ مهندس نرمافزار میخواهید یک تغییر کد (Pull Request) را خلاصه کنند. یک مهندس هر خط را از بالا تا پایین میخواند. مهندس دیگر بلافاصله به سراغ فایلهایی میرود که به نظرش مرتبطتر هستند. یک مهندس ارشد اما بیشتر کد را سریع مرور میکند اما روی بخشهایی که به احراز هویت، همروندی (Concurrency) یا عملکرد (Performance) اثر میگذارند، توجه شدیدی میکند. او تمام خطوط را با یک شدت یکسان نمیخواند، بلکه «توجه» میکند. این مشاهده انسانی، منطق اصلی ترنسفورمر است. در واقع، درک درست از نحوه تعامل با این مدلها نیازمند تغییر نگاه است، همانطور که رویکرد استدلال فعال در برابر مصرف غیرفعال کد نشان میدهد که چگونه تغییر متدولوژی تعامل میتواند خروجیهای دقیقتری حاصل کند.
همانطور که در تحلیلهای پیشین ما دربارهی تکامل مدلهای بنیادی اشاره کردیم، پیش از این تحول، هوش مصنوعی برای نزدیک به ۲۰ سال از شبکههای عصبی بازگشتی (RNN) و بعدها از مدلهای LSTM و GRU استفاده میکرد. این مدلها کلمات را یکییکی میخواندند و همزمان با پیشروی، یک حالت پنهان (Hidden State) را بهروز میکردند. مثلاً در جمله «حیوان از جاده رد نشد چون خسته بود»، یک RNN آن را به صورت خطی پردازش میکرد: حیوان $\downarrow$ از $\downarrow$ جاده $\downarrow$ رد $\downarrow$ نشد $\downarrow$ ... $\downarrow$ خسته.
این روش شبیه بازی «گوش به گوش» در کودکان است؛ تصور کنید تا زمانی که یک RNN به کلمه «آن» یا «خسته» برسد، اطلاعات مربوط به «حیوان» باید از شش یا هفت مرحله محاسباتی میانی عبور کند. طبق گزارشهای تخصصی، هر بار که اطلاعات به جلو منتقل میشود، مقدار کمی نویز وارد میشود. این مشکل که محوشدن گرادیان (Vanishing Gradient) نام دارد، باعث میشد ثبت وابستگیهای دور-برد تقریباً غیرممکن شود، زیرا اطلاعات ابتدای یک جمله طولانی اغلب در انتها کاملاً تغییر شکل مییافت یا بهطور کلی گم میشد.
این ماهیت متوالی، یک گلوگاه سختافزاری عظیم ایجاد کرد. چون کلمه B تا پایان پردازش کلمه A نمیتوانست پردازش شود، واحد پردازش گرافیکی (GPU) — که تخصصش انجام همزمان هزاران محاسبه موازی است — عملاً بسیار کمتر از ظرفیتش استفاده میشد. صنعت به راهی نیاز داشت که هر کلمه در یک توالی بتواند همزمان به تمام کلمات دیگر «نگاه» کند. این تغییر از پردازش متوالی به توجه موازی بود که عصر GPT را گشود.
مکانیسمهای خودتوجهی
خودتوجهی به مدل اجازه میدهد بر اساس بستر متن، وزنهای اهمیت متفاوتی را به توکن (Token) — که مثل برشهای کوچک یک کیک طولانی برای مدل است — اختصاص دهد. در این حالت، مدل دیگر نیازی ندارد یک حالت را «به خاطر بسپارد»، بلکه پیش از تصمیمگیری درباره اینکه یک توکن خاص باید چه چیزی را نمایندگی کند، صرفاً با کل جمله مشورت میکند.
مثلاً در جمله «جایزه در چمدان جا نشد چون خیلی کوچک بود»، مدل باید تعیین کند که «آن» یا «کوچک» به جایزه اشاره دارد یا چمدان. در حالی که انسانها بهطور طبیعی برای حل این ابهام به عقب نگاه میکنند، ترنسفورمرها همین عملیات را به صورت ریاضی انجام میدهند. این فرآیند تبدیل کلمات به مفاهیم ریاضی در واقع همان منطق بردارهای معنایی است که در سیستمهای توصیهگر مدرن نیز برای درک روابط پنهان میان دادهها استفاده میشود.
به جای پردازش خطی، ترنسفورمر مقادیر نمایندگی را از طریق سه بردار مشخص برای هر توکن محاسبه میکند:
- پرسوجو (Query): شبیه لیستی از سؤالاتی است که توکن در مورد آنها کنجکاو است («من دنبال چه اطلاعاتی هستم؟»).
- کلید (Key): شبیه یک نشان معرف است که تخصص توکن را توصیف میکند («من چه اطلاعاتی دارم؟»).
- مقدار (Value): همان دانش واقعی است که توکن میتواند به اشتراک بگذارد («چه اطلاعاتی را باید ارائه کنم؟»).
از نظر ریاضی، مدل حاصلضرب داخلی پرسوجو و کلید را محاسبه میکند تا میزان سازگاری آنها را بسنجد: score = Query · Key. یک حاصلضرب داخلی بزرگ به این معناست که مدل باید توجه کند؛ یک عدد کوچک یعنی میتوان آن بخش را نادیده گرفت.
سپس این امتیاز توسط تابع سافتمکس (Softmax) نرمال میشود: weights = softmax(QKᵀ / √d). تقسیم بر جذر بُعد (√d) در اینجا یک جزئیات حیاتی است؛ زیرا از تولید اعداد بیش از حد بزرگ در ابعاد برداری بالا جلوگیری میکند. اگر این تقسیم نباشد، سافتمکس اشباع شده، گرادیانها کوچک میشوند و آموزش مدل ناپایدار میگردد.

در نهایت، خروجی به صورت ترکیب وزنی از مقادیر محاسبه میشود: Output = weights × V. این امر تضمین میکند که کلمه «آن» به یک ترکیب وزنی از سایر کلمات مرتبط تبدیل شود. در مثال چمدان، این وزنها از مقادیر عظیمی از متون آموخته شدهاند. نمایندگی کلمه «آن» به شدت به سمت «چمدان» (۰.۶۷) و «کوچک» (۰.۱۷) متمایل میشود، در حالی که وزن بسیار کمی به «جایزه» (۰.۰۸) یا «جا نشد» (۰.۰۵) میدهد.
چرخش انقلابی
عنوان «Attention Is All You Need» عامدانه تحریکآمیز بود، چون مکانیسمهای توجه پیش از آن هم وجود داشتند. برای مثال، باهناوو (Bahdanau) و همکارانش در سال ۲۰۱۴ توجه را در ترجمه ماشینی عصبی معرفی کرده بودند. اما در آن نسخههای اولیه، توجه صرفاً یک افزونه یا مکمل برای شبکههای بازگشتی بود.
جسارت ترنسفورمر در این بود که بازگشت (Recurrence) و پیچشها (Convolutions) را بهطور کامل حذف کرد. معماری از یک زنجیره ساده Input → LSTM → LSTM → LSTM به پشتهای از لایههای Input → Self Attention → Feed Forward → Self Attention → Feed Forward تبدیل شد. این ساختار دهها یا حتی صدها بار تکرار میشود. اگرچه برخی پژوهشگران در ابتدا حذف بازگشت را ریسکبردار میدیدند، اما این روش بهسرعت به استاندارد طلایی عملکرد هوش مصنوعی تبدیل شد.
هزینهٔ زمینهٔ نامحدود
این جهش معماری، هزینه محاسباتی سنگینی داشت. چون هر توکن باید خودش را با تمام توکنهای دیگر مقایسه کند، پیچیدگی به صورت مربعی (Quadratic) افزایش مییابد. در یک پنجره زمینه (Context Window) با ۴۰۹۶ توکن — که شبیه میز کاری است که فقط جای چند ورق دارد — مدل در هر لایه حدود ۱۶.۸ میلیون مقایسه انجام میدهد (۴۰۹۶ × ۴۰۹۶).
مدلهای پیشرو مدرن این هزینه را از طریق موارد زیر تشدید میکنند:
- مقیاس: میلیاردها پارامتر و دهها لایه پشتهشده ترنسفورمر.
- پیچیدگی: اجرای موازی چندین «سرِ توجه» (Attention Heads) (مثلاً ۳۲ سر) که هر کدام به جنبههای متفاوتی از متن توجه میکنند.
- سختافزار: نیاز به هزاران GPU که بهطور مداوم برای هفتهها یا ماهها در حال پردازش باشند.
به نقل از تحلیلهای فنی شریجیت ونکاترامانا، اقتصاد این مقیاس تکاندهنده است. قیمت یک GPU میتواند دهها هزار دلار باشد. وقتی هزینههای برق، خنککننده، شبکه و آزمایشهای شکستخورده را هم در نظر بگیرید، هزینه آموزش بزرگترین مدلها میتواند به دهها یا حتی صدها میلیون دلار برسد.
همین هزینه، موج دوم نوآوریها را برای بهینه کردن خودتوجهی در مقیاس بزرگ ایجاد کرد. این امر منجر به توسعه تکنیکهای متمرکز بر بهرهوری شد، از جمله:
- توجه برقآسا (FlashAttention): بهینهسازی دسترسی به حافظه برای افزایش سرعت محاسبات توجه.
- توجه پرسوجوی گروهی (Grouped-Query Attention): کاهش تعداد سرهای کلید (K) و مقدار (V) برای ذخیره حافظه.
- توجه خطی و پراکنده (Sparse and Linear Attention): تلاش برای کاهش پیچیدگی مربعی به یک مقیاس خطی قابل مدیریتتر.
تحلیل: تغییر پارادایم هوش مصنوعی
برای متخصصان، انتقال به خودتوجهی یعنی تغییر از «پردازش» به «نگاشت». زبان اساساً متوالی نیست؛ روابط اغلب در کل سند پخش شدهاند. یک متغیر که صدها خط قبل در یک فایل کد تعریف شده، روی خط فعلی اثر میگذارد و یک ضمیر ممکن است به اسمی اشاره کند که چندین پاراگراف قبل آمده است.
ترنسفورمر با حذف پیشفرضِ اینکه زبان باید کلمه به کلمه پردازش شود، اجازه داد هوش مصنوعی این روابط دور-برد را بهطور طبیعی مدل کند. این تغییر، اقتصاد هوش مصنوعی را دگرگون کرد. توانایی اشباع کامل توان پردازشی GPU باعث شد قوانین مقیاسپذیری (Scaling Laws) واقعاً جواب دهند؛ یعنی اضافه کردن داده و پارامتر بیشتر، منجر به جهشهای پیشبینیپذیر در توانایی مدل شد. بدون ترنسفورمر، رقابت برای مدلهای تریلیون-پارامتری از نظر محاسباتی غیرممکن بود.
در نهایت، موفقیت LLMها نه در پیچیدهتر کردن مدل، بلکه در حذف یک محدودیت بود. با اجازه دادن به مدل برای تصمیمگیری درباره اینکه چه چیزی «شایسته توجه» است به جای مجبور کردن آن به خواندن به ترتیب، پژوهشگران نوعی شهود مصنوعی خلق کردند. هر آنچه پس از آن آمد — از GPT-2 تا ChatGPT — بر پایه همین یک درک واحد بنا شد.
برای مشاهده این مکانیسم در عمل، میتوانید بررسی کنید که مدلهای نسل فعلی چگونه زمینههای بسیار طولانی را مدیریت میکنند یا بهرهوریهای خاص پیادهسازیهای توجه خطی را مورد تحقیق قرار دهید. این یادآور این است که انقلابیترین ایدهها همیشه روشهای جدید محاسباتی نیستند، بلکه روشهای جدیدی برای تصمیمگیری درباره این هستند که چه چیزی شایسته توجه ماست.
گام بعدی شما
- بررسی نحوه مدیریت زمینههای بسیار طولانی (Long Context) در مدلهای نسل جدید.
- مطالعه پیادهسازیهای «توجه خطی» برای درک نحوه کاهش هزینههای استنتاج.
- آزمایش تفاوت پاسخدهی مدلهای مختلف در تحلیل متون طولانی برای سنجش میزان «گم شدن در وسط» (Lost in the Middle).
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو