رمزگشایی از هندسه‌ی مدل‌ها؛ ترفندی که مقیاس‌پذیری AI را ممکن کرد

تصور کنید تمام برتری مدل‌های غول‌پیکر، نه در حجم داده‌ها، بلکه در یک ترفند هندسی پنهان باشد. اگر فکر می‌کنید مقیاس‌پذیری صرفاً افزودن سخت‌افزار و قدرت محاسباتی است، سخت در اشتباهید.

به نقل از the-decoder.com، پژوهشگران MIT سرانجام رمز هندسی پشت برتری مدل‌های بزرگ‌تر را کشف کردند. طبق اعلام این تیم، سازوکار اصلی این پیشرفت، یک فشرده‌سازی فضایی پیچیده به نام برهم‌نهی (Superposition) است.

در ۳ مه ۲۰۲۶، مطالعه‌ای که در کنفرانس NeurIPS ۲۰۲۵ ارائه شد، فاش کرد که مدل‌های زبانی بزرگ (Large Language Models) در رژیم «برهم‌نهی قوی» عمل می‌کنند. بر اساس مستندات این پژوهش، مدل‌ها باید ده‌ها هزار توکن و مفاهیم انتزاعی را در فضای داخلی با تنها چند هزار بُعد جای دهند. برای حل این مشکل، آن‌ها مفاهیم متعدد را در ابعاد یکسان ذخیره می‌کنند و اجازه می‌دهند بردار معنایی (Embedding) آن‌ها کمی با هم هم‌پوشانی داشته باشد.

تیم تحقیقاتی شامل Yizhou Liu، Ziming Liu و Jeff Gore، دو وضعیت متفاوت را مقایسه کردند:

برهم‌نهی ضعیف: مدل فقط مفاهیم رایج را ذخیره کرده و مفاهیم نادر را نادیده می‌گیرد؛ در اینجا مقیاس‌پذیری کاملاً به توزیع داده‌ها وابسته است.
برهم‌نهی قوی: مدل تمام مفاهیم را با پذیرش هم‌پوشانی ذخیره می‌کند. در این حالت، دو برابر کردن عرض مدل، نرخ خطا را تقریباً نصف می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های مدل‌های زبانی بزرگ اشاره کردیم، این الگو در مدل‌های مختلف تکرار می‌شود. این تیم با تحلیل لایه‌های خروجی مدل‌های OPT، GPT-2، Qwen2.5 و Pythia (از ۱۰۰ میلیون تا ۷۰ میلیارد پارامتر)، دریافتند که همه‌ی آن‌ها از برهم‌نهی قوی استفاده می‌کنند. توان مقیاس‌پذیری اندازه‌گیری شده در این مدل‌ها ۰.۹۱ بود که به‌طور شگفت‌آوری به مقدار تئوریک ۱ نزدیک است؛ عددی که با داده‌های مدل Chinchilla متعلق به Deepmind (۰.۸۸) هم‌خوانی دارد.

این کشف پاسخ دقیقی به این پرسش می‌دهد که آیا قوانین مقیاس‌پذیری (Scaling Laws) یک روز شکست می‌خورند یا خیر. محققان استدلال می‌کنند که وقتی عرض مدل با اندازه واژگان آن برابر شود، دیگر نیازی به هم‌پوشانی نیست و مقیاس‌پذیری متوقف می‌شود. اما این تراکم مفاهیم، مانعی بزرگ برای تفسیرپذیری مکانیکی (Mechanistic Interpretability) ایجاد می‌کند.

اما این پیچیدگی هندسی، کابوسی برای متخصصان امنیت است — به بررسی ما درباره‌ی چالش‌های تفسیرپذیری در مدل‌های نسل بعد مراجعه کنید.

گام بعدی شما

بررسی رابطه بین عرض مدل (Width) و اندازه واژگان (Vocabulary Size) در مدل‌های بازمتن.
مطالعه مقالات مربوط به تفسیرپذیری مکانیکی برای درک نحوه استخراج مفاهیم از برهم‌نهی.
دنبال کردن گزارش‌های NeurIPS ۲۰۲۵ برای یافتن روش‌های جدید کاهش هم‌پوشانی بدون افت عملکرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تیم تحقیقاتی شامل Yizhou Liu، Ziming Liu و Jeff Gore، دو وضعیت متفاوت را مقایسه کردند:

برهم‌نهی ضعیف: مدل فقط مفاهیم رایج را ذخیره کرده و مفاهیم نادر را نادیده می‌گیرد؛ در اینجا مقیاس‌پذیری کاملاً به توزیع داده‌ها وابسته است.
برهم‌نهی قوی: مدل تمام مفاهیم را با پذیرش هم‌پوشانی ذخیره می‌کند. در این حالت، دو برابر کردن عرض مدل، نرخ خطا را تقریباً نصف می‌کند.

گام بعدی شما

بررسی رابطه بین عرض مدل (Width) و اندازه واژگان (Vocabulary Size) در مدل‌های بازمتن.
مطالعه مقالات مربوط به تفسیرپذیری مکانیکی برای درک نحوه استخراج مفاهیم از برهم‌نهی.
دنبال کردن گزارش‌های NeurIPS ۲۰۲۵ برای یافتن روش‌های جدید کاهش هم‌پوشانی بدون افت عملکرد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از هندسه‌ی مدل‌ها؛ ترفندی که مقیاس‌پذیری AI را ممکن کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از هندسه‌ی مدل‌ها؛ ترفندی که مقیاس‌پذیری AI را ممکن کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از هندسه‌ی مدل‌ها؛ ترفندی که مقیاس‌پذیری AI را ممکن کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از هندسه‌ی مدل‌ها؛ ترفندی که مقیاس‌پذیری AI را ممکن کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران