یک معادله چهارخطی؛ موتور ریاضیاتی پشت مدل‌های GPT و Claude

تصور کنید می‌خواهید در یک کتاب هزار صفحه‌ای، سریع‌ترین راه برای پیدا کردن ارتباط بین دو کلمه در صفحات مختلف را بیابید. تمام قدرت مدل‌های GPT، Claude، Gemini، Llama و DeepSeek دقیقاً از یک الگوریتم چهارخطی به نام «توجه ضرب-داخلی مقیاس‌شده» (Scaled Dot-Product Attention) می‌آید.

این مدل‌ها شبیه جادو به نظر می‌رسند، اما توانایی آن‌ها در درک ظرافت‌های زبانی از یک فرآیند تطبیق ریاضی ساده می‌آید که با هر کلمه مانند یک قطعه داده‌ی قابل جست‌وجو برخورد می‌کند. نکته خیره‌کننده این است که هسته این فناوری در یک معادله جای می‌گیرد: Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V.

پیش از ترنسفورمرها: بن‌بست حافظه

پیش از سال ۲۰۱۷، شبکه‌های عصبی بر پایه شبکه‌های عصبی بازگشتی (RNN) و LSTM بود. این مدل‌ها متن را به‌صورت ترتیبی پردازش می‌کردند؛ یعنی کلمه به کلمه از چپ به راست پیش می‌رفتند (مثلاً: The -> trophy -> didn't -> fit -> ...). در این ساختار، هر کلمه یک «وضعیت پنهان» (Hidden State) را به‌روزرسانی می‌کرد.

این روش یک گلوگاه حافظه عظیم ایجاد می‌کرد؛ اطلاعات باید از ده‌ها یا صدها مرحله متوالی عبور می‌کردند. طبق گزارش‌های فنی، تا زمانی که شبکه به انتهای یک پاراگراف طولانی می‌رسید، اطلاعات ابتدایی اغلب محو شده بودند. اگرچه LSTMها با مکانیزم‌های دروازه‌بندی (Gating Mechanisms) این مشکل را بهبود دادند، اما همچنان پردازش توالی‌ها را به‌صورت خطی انجام می‌دادند که منجر به ایجاد یک بن‌بست هم محاسباتی و هم مفهومی می‌شد.

جمله «جایزه در چمدان جا نشد چون خیلی کوچک بود» را در نظر بگیرید. برای اینکه بفهمیم «کوچک» به جایزه اشاره دارد یا چمدان، انسان‌ها مفاهیم مرتبط را فوراً به هم پیوند می‌زنند. شبکه‌های قدیمی در برقراری این ارتباطات در فواصل دور مشکل داشتند. همان‌طور که در تحلیل قبلی ما درباره‌ی رفتار مدل‌ها و تقلید Claude 4.6 و Gemini 3.5 از لحن انسانی اشاره کردیم، همین معماری زیرساختی است که تعیین می‌کند یک مدل چگونه مفاهیم دور از هم را در یک پرامپت به هم پیوند دهد.

ایده مرکزی: هر کلمه به هر کجا نگاه کند

در سال ۲۰۱۷، گروهی از پژوهشگران گوگل، از جمله آشیش واسوانی، مقاله «Attention Is All You Need» را منتشر کردند. آن‌ها پیشنهاد دادند که بازگشت (Recurrence) و پیچش (Convolution) به‌طور کامل حذف شوند. آشیش واسوانی بعدها هدف را ساده توصیف کرد: به‌جای انتقال گام‌به‌گام حافظه به جلو، چرا اجازه ندهیم هر کلمه مستقیماً تمام کلمات دیگر را بررسی کند؟

در جمله‌ای مثل «گربه روی فرش نشست»، هنگام پردازش کلمه «نشست»، مدل بیشتر به «گربه»، «روی» و «فرش» اهمیت می‌دهد و کلمه «The» را نادیده می‌گیرد. به‌جای مجبور کردن اطلاعات به عبور از وضعیت‌های میانی، مکانیزم توجه اجازه ارتباط مستقیم می‌دهد. هر توکن (Token) — تکه‌های کوچکی از متن، شبیه برش‌های یک کیک طولانی که مدل تکه‌تکه می‌خورد — در واقع می‌پرسد: «کدام توکن‌های دیگر برای من مرتبط هستند؟»

استعاره موتور جست‌وجو

برای درک این سازوکار، موتور جست‌وجوی گوگل را تصور کنید. وقتی شما عبارت «بهترین پیتزا در نزدیکی من» را جست‌وجو می‌کنید، یک «پرس‌وجو» (Query) ارسال می‌کنید. هر صفحه وب ویژگی‌هایی دارد (Keys) که تعیین می‌کند آیا با جست‌وجوی شما مطابقت دارد یا خیر، و محتوایی که در نهایت می‌خوانید «مقدار» (Value) است.

هر توکن در یک جمله سه بردار ریاضی مجزا تولید می‌کند:

پرس‌وجو (Query): آنچه توکن به دنبالش است (مثلاً: «من به دنبال چه چیزی هستم؟»).
کلید (Key): اطلاعاتی که توکن ارائه می‌دهد (مثلاً: «من چه اطلاعاتی دارم که ارائه دهم؟»).
مقدار (Value): محتوای واقعی که اگر توکن انتخاب شد، مشارکت داده می‌شود (مثلاً: «اگر انتخاب شدم، چه اطلاعاتی باید بفرستم؟»).

وقتی مدل کلمه «آن» را در جمله «حیوان از جاده رد نشد چون آن خسته بود» پردازش می‌کند، پرس‌وجوی «آن» با کلید «حیوان» تطابق قوی‌تری دارد تا کلید «جاده»، زیرا نمایش‌های معنایی آن‌ها سازگارتر است.

نمایش نحوه پیش‌بینی اپلیکیشن‌ها از رفتار کاربر با الگوریتم‌های یادگیری ماشین و تحلیل داده‌ها

رمزگشایی معادله

عملیات اصلی از یک توالی ریاضی مشخص پیروی می‌کند: Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V.

گام اول: مقایسه پرس‌وجوها با تمام کلیدها
ابتدا مدل یک «ضرب-داخلی» (Dot Product) بین پرس‌وجو و هر کلید محاسبه می‌کند. این عدد به عنوان امتیاز شباهت عمل می‌کند:

مقدار مثبت بزرگ: بسیار مرتبط.
نزدیک به صفر: تقریباً نامرتبط.
مقدار منفی: احتمالاً بی‌ربط.

اگر یک جمله ۱۰۰ توکن داشته باشد، هر پرس‌وجو ۱۰۰ امتیاز شباهت را به‌طور هم‌زمان محاسبه می‌کند. برای مثال، مدل ممکن است برای کلمه «گربه» امتیاز ۱۲، برای «سگ» امتیاز ۲ و برای «جاده» امتیاز ۱- را ثبت کند.

گام دوم: چرا بر sqrt(d_k) تقسیم می‌کنیم؟
سپس مرحله «مقیاس‌بندی» (Scaling) می‌آید. مدل امتیازها را بر ریشه دوم بُعد کلیدها (sqrt(d_k)) تقسیم می‌کند. این کار حیاتی است زیرا بدون مقیاس‌بندی، ضرب-داخلی برای بردارهای بلند — مانند بردارهایی با ۵۱۲ بُعد — بسیار عظیم می‌شود.

واریانس یک ضرب-داخلی تقریباً متناسب با d_k رشد می‌کند. اگر d_k برابر با ۵۱۲ باشد، ریشه دوم آن تقریباً ۲۲.۶ است. چون تابع سافت‌مکس شامل توابع نمایی است، یک افزایش کوچک در ورودی، تفاوت عظیمی در خروجی ایجاد می‌کند (مثلاً exp(10) حدود ۲۲ هزار است، اما exp(22) حدود ۳.۵ میلیارد است).

بدون این تقسیم، یک امتیاز به‌طور کامل بر بقیه غالب می‌شود و در عمل تمام امتیازات دیگر را صفر می‌کند. این وضعیت باعث ایجاد گرادیان‌های ناپایدار و یادگیری کندتر می‌شود. تقسیم بر sqrt(d_k) ترفندی برای نرمال‌سازی واریانس است تا مقادیر در محدوده عددی سالمی باقی بمانند.

گام سوم: سافت‌مکس و ایجاد احتمالات
امتیازهای مقیاس‌شده از یک تابع سافت‌مکس (Softmax) عبور می‌کنند. این تابع امتیازهای خام (مثل ۳، ۲، ۰) را به احتمالاتی تبدیل می‌کند که مجموع آن‌ها برابر ۱ است (مثلاً ۰.۷۱، ۰.۲۶، ۰.۰۳). حالا مدل می‌داند توجه خود را دقیقاً چگونه توزیع کند: مثلاً ۷۱٪ اینجا، ۲۶٪ آنجا و بقیه را Mostly نادیده بگیرد.

گام چهارم: مجموع وزنی مقادیر
در نهایت، این احتمالات به عنوان وزن برای بردارهای «مقدار» (Value) استفاده می‌شوند. این کار شبیه میانگین‌گیری از نظرات خبرگان است: ۷۰٪ از خبره A، ۲۵٪ از خبره B و ۵٪ از خبره C. نمایش نهایی به صورت 0.70 * A + 0.25 * B + 0.05 * C محاسبه می‌شود. این فرآیند، اطلاعات چندین توکن مرتبط را در یک نمایش جدید و غنی‌تر برای کلمه فعلی ترکیب می‌کند.

هم‌افزایی سخت‌افزاری

تصمیم برای استفاده از ضرب ماتریسی یک شاهکار مهندسی بود. به‌جای پردازش تک‌تک توکن‌ها (کلمه ۱، سپس کلمه ۲ و...), ترنسفورمر تمام توکن‌ها را هم‌زمان با استفاده از ماتریس‌های بزرگ پردازش می‌کند.

این رویکرد با ساختار سخت‌افزاری GPUهای NVIDIA و TPUهای گوگل که برای عملیات موازی ماتریسی عظیم طراحی شده‌اند، کاملاً سازگار بود. الگوریتم و سخت‌افزار یکدیگر را تقویت کردند؛ ترنسفورمر نه‌تنها ظرافت ریاضی داشت، بلکه با سخت‌افزارهای موجود مطابقت داشت و به همین دلیل توانست به‌طور دراماتیکی مقیاس‌پذیر شود.

هزینه درجه دوم (Quadratic Cost)

این قدرت بهبهایی سنگین دارد: پیچیدگی محاسباتی. چون هر توکن باید خودش را با تمام توکن‌های دیگر مقایسه کند، هزینه رشد درجه دوم (O(n²)) دارد.

۱,۰۰۰ توکن: ۱ میلیون مقایسه جفت‌به‌جفت.
۱۰,۰۰۰ توکن: ۱۰۰ میلیون مقایسه.
۱۰۰,۰۰۰ توکن: ۱۰ میلیارد مقایسه.

اگر طول توالی را از ۱,۰۰۰ به ۲,۰۰۰ توکن برسانید، حجم کار تقریباً ۴ برابر می‌شود. این رشد درجه دوم، عامل اصلی فشار بر حافظه و هزینه استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند — است. تلاش برای بهینه‌سازی این هزینه‌ها در مدل‌های جدید به ویژه در مدل‌های وزن‌باز مانند M3، به هدف اصلی طراحان تبدیل شده تا سرعت پاسخ‌دهی در توالی‌های طولانی افزایش یابد. بسیاری از پژوهش‌های فعلی LLM، از جمله FlashAttention، توجه پراکنده (Sparse Attention)، توجه پنجره-لغزنده (Sliding-Window)، توجه پرس‌وجوی گروهی (Grouped-Query) و توجه خطی، بر این تمرکز دارند که این محاسبات را بدون کاهش کیفیت، ارزان‌تر کنند.

یک لحظه تاریخی

وقتی آشیش واسوانی و هفت همکارش در سال ۲۰۱۷ مقاله خود را منتشر کردند، فقط می‌خواستند مشکل ترجمه ماشینی را حل کنند؛ آن‌ها قصد ساخت ChatGPT را نداشتند. با این حال، طی چند سال، OpenAI مدل GPT و گوگل مدل BERT را با همین مکانیزم هسته‌ای ساختند.

مقالات کمی می‌توانند یک رشته علمی را به‌طور کامل بازتعریف کنند، اما این مقاله یکی از آن‌ها بود. امروز میلیاردها نفر از ایده‌ای بهره می‌برند که تنها در چند خط از یک مقاله پژوهشی جای گرفته است. زیبایی این سیستم در سادگی آن است: هر توکن سوال می‌پرسد، هر توکن دیگر تبلیغ می‌کند چه می‌داند، شباهت تعیین می‌کند چه کسی مرتبط است و سافت‌مکس تصمیم می‌گیرد به چه کسی اعتماد کند.

در نهایت، توانایی هوش مصنوعی در کدنویسی یا حل مسائل ریاضی بر پایه همین یک معادله است. این فرمول هرج‌ومرج یک جمله را به نقشه‌ای ساختاریافته از ارتباطات تبدیل می‌کند تا مدل بتواند تمام زمینه را یک‌باره «ببیند». برای مشاهده این سازوکار در عمل، می‌توانید بررسی کنید که چگونه مکانیزم‌های مختلف مانند توجه پنجره-لغزنده یا توجه پراکنده تلاش می‌کنند گلوگاه O(n²) را بشکنند تا پنجره‌های زمینه‌ای (Context Window) میلیونی ممکن شود.

گام بعدی شما

برای درک عمیق‌تر، مقاله اصلی «Attention Is All You Need» را بخوانید تا متوجه شوید چگونه حذف RNNها مسیر مدل‌های زبانی را تغییر داد.
بررسی کنید که چگونه تکنیک‌های جدید مانند Grouped-Query Attention هزینه استنتاج را در مدل‌های بزرگ کاهش می‌دهند.
اگر برنامه‌نویس هستید، سعی کنید یک مکانیزم Attention ساده را با استفاده از کتابخانه PyTorch پیاده‌سازی کنید تا مفهوم ضرب-داخلی را لمس کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پیش از ترنسفورمرها: بن‌بست حافظه

ایده مرکزی: هر کلمه به هر کجا نگاه کند

استعاره موتور جست‌وجو

هر توکن در یک جمله سه بردار ریاضی مجزا تولید می‌کند:

پرس‌وجو (Query): آنچه توکن به دنبالش است (مثلاً: «من به دنبال چه چیزی هستم؟»).
کلید (Key): اطلاعاتی که توکن ارائه می‌دهد (مثلاً: «من چه اطلاعاتی دارم که ارائه دهم؟»).
مقدار (Value): محتوای واقعی که اگر توکن انتخاب شد، مشارکت داده می‌شود (مثلاً: «اگر انتخاب شدم، چه اطلاعاتی باید بفرستم؟»).

نمایش نحوه پیش‌بینی اپلیکیشن‌ها از رفتار کاربر با الگوریتم‌های یادگیری ماشین و تحلیل داده‌ها

رمزگشایی معادله

عملیات اصلی از یک توالی ریاضی مشخص پیروی می‌کند: Attention(Q, K, V) = softmax((Q * K^T) / sqrt(d_k)) * V.

مقدار مثبت بزرگ: بسیار مرتبط.
نزدیک به صفر: تقریباً نامرتبط.
مقدار منفی: احتمالاً بی‌ربط.

هم‌افزایی سخت‌افزاری

هزینه درجه دوم (Quadratic Cost)

۱,۰۰۰ توکن: ۱ میلیون مقایسه جفت‌به‌جفت.
۱۰,۰۰۰ توکن: ۱۰۰ میلیون مقایسه.
۱۰۰,۰۰۰ توکن: ۱۰ میلیارد مقایسه.

یک لحظه تاریخی

گام بعدی شما

برای درک عمیق‌تر، مقاله اصلی «Attention Is All You Need» را بخوانید تا متوجه شوید چگونه حذف RNNها مسیر مدل‌های زبانی را تغییر داد.
بررسی کنید که چگونه تکنیک‌های جدید مانند Grouped-Query Attention هزینه استنتاج را در مدل‌های بزرگ کاهش می‌دهند.
اگر برنامه‌نویس هستید، سعی کنید یک مکانیزم Attention ساده را با استفاده از کتابخانه PyTorch پیاده‌سازی کنید تا مفهوم ضرب-داخلی را لمس کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

یک معادله چهارخطی؛ موتور ریاضیاتی پشت مدل‌های GPT و Claude

پیش از ترنسفورمرها: بن‌بست حافظه

ایده مرکزی: هر کلمه به هر کجا نگاه کند

استعاره موتور جست‌وجو

رمزگشایی معادله

هم‌افزایی سخت‌افزاری

هزینه درجه دوم (Quadratic Cost)

یک لحظه تاریخی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

یک معادله چهارخطی؛ موتور ریاضیاتی پشت مدل‌های GPT و Claude

پیش از ترنسفورمرها: بن‌بست حافظه

ایده مرکزی: هر کلمه به هر کجا نگاه کند

استعاره موتور جست‌وجو

رمزگشایی معادله

هم‌افزایی سخت‌افزاری

هزینه درجه دوم (Quadratic Cost)

یک لحظه تاریخی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

یک معادله چهارخطی؛ موتور ریاضیاتی پشت مدل‌های GPT و Claude

پیش از ترنسفورمرها: بن‌بست حافظه

ایده مرکزی: هر کلمه به هر کجا نگاه کند

استعاره موتور جست‌وجو

رمزگشایی معادله

هم‌افزایی سخت‌افزاری

هزینه درجه دوم (Quadratic Cost)

یک لحظه تاریخی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

یک معادله چهارخطی؛ موتور ریاضیاتی پشت مدل‌های GPT و Claude

پیش از ترنسفورمرها: بن‌بست حافظه

ایده مرکزی: هر کلمه به هر کجا نگاه کند

استعاره موتور جست‌وجو

رمزگشایی معادله

هم‌افزایی سخت‌افزاری

هزینه درجه دوم (Quadratic Cost)

یک لحظه تاریخی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران