تصور کنید میخواهید در یک کتاب هزار صفحهای، سریعترین راه برای پیدا کردن ارتباط بین دو کلمه در صفحات مختلف را بیابید. تمام قدرت مدلهای GPT، Claude، Gemini، Llama و DeepSeek دقیقاً از یک الگوریتم چهارخطی به نام «توجه ضرب-داخلی مقیاسشده» (Scaled Dot-Product Attention) میآید.
این مدلها شبیه جادو به نظر میرسند، اما توانایی آنها در درک ظرافتهای زبانی از یک فرآیند تطبیق ریاضی ساده میآید که با هر کلمه مانند یک قطعه دادهی قابل جستوجو برخورد میکند. نکته خیرهکننده این است که هسته این فناوری در یک معادله جای میگیرد: Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V.
پیش از ترنسفورمرها: بنبست حافظه
پیش از سال ۲۰۱۷، شبکههای عصبی بر پایه شبکههای عصبی بازگشتی (RNN) و LSTM بود. این مدلها متن را بهصورت ترتیبی پردازش میکردند؛ یعنی کلمه به کلمه از چپ به راست پیش میرفتند (مثلاً: The -> trophy -> didn't -> fit -> ...). در این ساختار، هر کلمه یک «وضعیت پنهان» (Hidden State) را بهروزرسانی میکرد.
این روش یک گلوگاه حافظه عظیم ایجاد میکرد؛ اطلاعات باید از دهها یا صدها مرحله متوالی عبور میکردند. طبق گزارشهای فنی، تا زمانی که شبکه به انتهای یک پاراگراف طولانی میرسید، اطلاعات ابتدایی اغلب محو شده بودند. اگرچه LSTMها با مکانیزمهای دروازهبندی (Gating Mechanisms) این مشکل را بهبود دادند، اما همچنان پردازش توالیها را بهصورت خطی انجام میدادند که منجر به ایجاد یک بنبست هم محاسباتی و هم مفهومی میشد.
جمله «جایزه در چمدان جا نشد چون خیلی کوچک بود» را در نظر بگیرید. برای اینکه بفهمیم «کوچک» به جایزه اشاره دارد یا چمدان، انسانها مفاهیم مرتبط را فوراً به هم پیوند میزنند. شبکههای قدیمی در برقراری این ارتباطات در فواصل دور مشکل داشتند. همانطور که در تحلیل قبلی ما دربارهی رفتار مدلها و تقلید Claude 4.6 و Gemini 3.5 از لحن انسانی اشاره کردیم، همین معماری زیرساختی است که تعیین میکند یک مدل چگونه مفاهیم دور از هم را در یک پرامپت به هم پیوند دهد.
ایده مرکزی: هر کلمه به هر کجا نگاه کند
در سال ۲۰۱۷، گروهی از پژوهشگران گوگل، از جمله آشیش واسوانی، مقاله «Attention Is All You Need» را منتشر کردند. آنها پیشنهاد دادند که بازگشت (Recurrence) و پیچش (Convolution) بهطور کامل حذف شوند. آشیش واسوانی بعدها هدف را ساده توصیف کرد: بهجای انتقال گامبهگام حافظه به جلو، چرا اجازه ندهیم هر کلمه مستقیماً تمام کلمات دیگر را بررسی کند؟
در جملهای مثل «گربه روی فرش نشست»، هنگام پردازش کلمه «نشست»، مدل بیشتر به «گربه»، «روی» و «فرش» اهمیت میدهد و کلمه «The» را نادیده میگیرد. بهجای مجبور کردن اطلاعات به عبور از وضعیتهای میانی، مکانیزم توجه اجازه ارتباط مستقیم میدهد. هر توکن (Token) — تکههای کوچکی از متن، شبیه برشهای یک کیک طولانی که مدل تکهتکه میخورد — در واقع میپرسد: «کدام توکنهای دیگر برای من مرتبط هستند؟»
استعاره موتور جستوجو
برای درک این سازوکار، موتور جستوجوی گوگل را تصور کنید. وقتی شما عبارت «بهترین پیتزا در نزدیکی من» را جستوجو میکنید، یک «پرسوجو» (Query) ارسال میکنید. هر صفحه وب ویژگیهایی دارد (Keys) که تعیین میکند آیا با جستوجوی شما مطابقت دارد یا خیر، و محتوایی که در نهایت میخوانید «مقدار» (Value) است.
هر توکن در یک جمله سه بردار ریاضی مجزا تولید میکند:
- پرسوجو (Query): آنچه توکن به دنبالش است (مثلاً: «من به دنبال چه چیزی هستم؟»).
- کلید (Key): اطلاعاتی که توکن ارائه میدهد (مثلاً: «من چه اطلاعاتی دارم که ارائه دهم؟»).
- مقدار (Value): محتوای واقعی که اگر توکن انتخاب شد، مشارکت داده میشود (مثلاً: «اگر انتخاب شدم، چه اطلاعاتی باید بفرستم؟»).
وقتی مدل کلمه «آن» را در جمله «حیوان از جاده رد نشد چون آن خسته بود» پردازش میکند، پرسوجوی «آن» با کلید «حیوان» تطابق قویتری دارد تا کلید «جاده»، زیرا نمایشهای معنایی آنها سازگارتر است.

رمزگشایی معادله
عملیات اصلی از یک توالی ریاضی مشخص پیروی میکند: Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V.
گام اول: مقایسه پرسوجوها با تمام کلیدها
ابتدا مدل یک «ضرب-داخلی» (Dot Product) بین پرسوجو و هر کلید محاسبه میکند. این عدد به عنوان امتیاز شباهت عمل میکند:
- مقدار مثبت بزرگ: بسیار مرتبط.
- نزدیک به صفر: تقریباً نامرتبط.
- مقدار منفی: احتمالاً بیربط.
اگر یک جمله ۱۰۰ توکن داشته باشد، هر پرسوجو ۱۰۰ امتیاز شباهت را بهطور همزمان محاسبه میکند. برای مثال، مدل ممکن است برای کلمه «گربه» امتیاز ۱۲، برای «سگ» امتیاز ۲ و برای «جاده» امتیاز ۱- را ثبت کند.
گام دوم: چرا بر sqrt(d_k) تقسیم میکنیم؟
سپس مرحله «مقیاسبندی» (Scaling) میآید. مدل امتیازها را بر ریشه دوم بُعد کلیدها (sqrt(d_k)) تقسیم میکند. این کار حیاتی است زیرا بدون مقیاسبندی، ضرب-داخلی برای بردارهای بلند — مانند بردارهایی با ۵۱۲ بُعد — بسیار عظیم میشود.
واریانس یک ضرب-داخلی تقریباً متناسب با d_k رشد میکند. اگر d_k برابر با ۵۱۲ باشد، ریشه دوم آن تقریباً ۲۲.۶ است. چون تابع سافتمکس شامل توابع نمایی است، یک افزایش کوچک در ورودی، تفاوت عظیمی در خروجی ایجاد میکند (مثلاً exp(10) حدود ۲۲ هزار است، اما exp(22) حدود ۳.۵ میلیارد است).
بدون این تقسیم، یک امتیاز بهطور کامل بر بقیه غالب میشود و در عمل تمام امتیازات دیگر را صفر میکند. این وضعیت باعث ایجاد گرادیانهای ناپایدار و یادگیری کندتر میشود. تقسیم بر sqrt(d_k) ترفندی برای نرمالسازی واریانس است تا مقادیر در محدوده عددی سالمی باقی بمانند.
گام سوم: سافتمکس و ایجاد احتمالات
امتیازهای مقیاسشده از یک تابع سافتمکس (Softmax) عبور میکنند. این تابع امتیازهای خام (مثل ۳، ۲، ۰) را به احتمالاتی تبدیل میکند که مجموع آنها برابر ۱ است (مثلاً ۰.۷۱، ۰.۲۶، ۰.۰۳). حالا مدل میداند توجه خود را دقیقاً چگونه توزیع کند: مثلاً ۷۱٪ اینجا، ۲۶٪ آنجا و بقیه را Mostly نادیده بگیرد.
گام چهارم: مجموع وزنی مقادیر
در نهایت، این احتمالات به عنوان وزن برای بردارهای «مقدار» (Value) استفاده میشوند. این کار شبیه میانگینگیری از نظرات خبرگان است: ۷۰٪ از خبره A، ۲۵٪ از خبره B و ۵٪ از خبره C. نمایش نهایی به صورت 0.70 * A + 0.25 * B + 0.05 * C محاسبه میشود. این فرآیند، اطلاعات چندین توکن مرتبط را در یک نمایش جدید و غنیتر برای کلمه فعلی ترکیب میکند.
همافزایی سختافزاری
تصمیم برای استفاده از ضرب ماتریسی یک شاهکار مهندسی بود. بهجای پردازش تکتک توکنها (کلمه ۱، سپس کلمه ۲ و...), ترنسفورمر تمام توکنها را همزمان با استفاده از ماتریسهای بزرگ پردازش میکند.
این رویکرد با ساختار سختافزاری GPUهای NVIDIA و TPUهای گوگل که برای عملیات موازی ماتریسی عظیم طراحی شدهاند، کاملاً سازگار بود. الگوریتم و سختافزار یکدیگر را تقویت کردند؛ ترنسفورمر نهتنها ظرافت ریاضی داشت، بلکه با سختافزارهای موجود مطابقت داشت و به همین دلیل توانست بهطور دراماتیکی مقیاسپذیر شود.
هزینه درجه دوم (Quadratic Cost)
این قدرت بهبهایی سنگین دارد: پیچیدگی محاسباتی. چون هر توکن باید خودش را با تمام توکنهای دیگر مقایسه کند، هزینه رشد درجه دوم (O(n²)) دارد.
- ۱,۰۰۰ توکن: ۱ میلیون مقایسه جفتبهجفت.
- ۱۰,۰۰۰ توکن: ۱۰۰ میلیون مقایسه.
- ۱۰۰,۰۰۰ توکن: ۱۰ میلیارد مقایسه.
اگر طول توالی را از ۱,۰۰۰ به ۲,۰۰۰ توکن برسانید، حجم کار تقریباً ۴ برابر میشود. این رشد درجه دوم، عامل اصلی فشار بر حافظه و هزینه استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند — است. تلاش برای بهینهسازی این هزینهها در مدلهای جدید به ویژه در مدلهای وزنباز مانند M3، به هدف اصلی طراحان تبدیل شده تا سرعت پاسخدهی در توالیهای طولانی افزایش یابد. بسیاری از پژوهشهای فعلی LLM، از جمله FlashAttention، توجه پراکنده (Sparse Attention)، توجه پنجره-لغزنده (Sliding-Window)، توجه پرسوجوی گروهی (Grouped-Query) و توجه خطی، بر این تمرکز دارند که این محاسبات را بدون کاهش کیفیت، ارزانتر کنند.
یک لحظه تاریخی
وقتی آشیش واسوانی و هفت همکارش در سال ۲۰۱۷ مقاله خود را منتشر کردند، فقط میخواستند مشکل ترجمه ماشینی را حل کنند؛ آنها قصد ساخت ChatGPT را نداشتند. با این حال، طی چند سال، OpenAI مدل GPT و گوگل مدل BERT را با همین مکانیزم هستهای ساختند.
مقالات کمی میتوانند یک رشته علمی را بهطور کامل بازتعریف کنند، اما این مقاله یکی از آنها بود. امروز میلیاردها نفر از ایدهای بهره میبرند که تنها در چند خط از یک مقاله پژوهشی جای گرفته است. زیبایی این سیستم در سادگی آن است: هر توکن سوال میپرسد، هر توکن دیگر تبلیغ میکند چه میداند، شباهت تعیین میکند چه کسی مرتبط است و سافتمکس تصمیم میگیرد به چه کسی اعتماد کند.
در نهایت، توانایی هوش مصنوعی در کدنویسی یا حل مسائل ریاضی بر پایه همین یک معادله است. این فرمول هرجومرج یک جمله را به نقشهای ساختاریافته از ارتباطات تبدیل میکند تا مدل بتواند تمام زمینه را یکباره «ببیند». برای مشاهده این سازوکار در عمل، میتوانید بررسی کنید که چگونه مکانیزمهای مختلف مانند توجه پنجره-لغزنده یا توجه پراکنده تلاش میکنند گلوگاه O(n²) را بشکنند تا پنجرههای زمینهای (Context Window) میلیونی ممکن شود.
گام بعدی شما
- برای درک عمیقتر، مقاله اصلی «Attention Is All You Need» را بخوانید تا متوجه شوید چگونه حذف RNNها مسیر مدلهای زبانی را تغییر داد.
- بررسی کنید که چگونه تکنیکهای جدید مانند Grouped-Query Attention هزینه استنتاج را در مدلهای بزرگ کاهش میدهند.
- اگر برنامهنویس هستید، سعی کنید یک مکانیزم Attention ساده را با استفاده از کتابخانه PyTorch پیادهسازی کنید تا مفهوم ضرب-داخلی را لمس کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو