تخیل کنید آشپزی داشته باشید که حافظهای خارقالعاده دارد اما فقط ۱۰ غذا پخته است؛ او پتانسیل یادگیری دارد اما تجربهٔ کافی برای مهارت واقعی را ندارد. این استعاره از آموزش یک سرآشپز در سطح جهانی، دقیقاً جوهره توسعه هوش مصنوعی را توصیف میکند. این وضعیت همان چیزی است که مدلهای غولپیکر هوش مصنوعی در سالهای نخسته با آن دستوپنجه نرم میکردند.
به نقل از وبلاگ لیلیان ونگ در ۲۴ ژوئن ۲۰۲۶، صنعت هوش مصنوعی از تعقیب مدلهای عظیم به سمت بهینهسازی تعادل میان حجم داده و اندازه مدل، یا آنچه «تعادل بهینه محاسباتی» (Compute-Optimal Balance) نامیده میشود، تغییر مسیر داده است. سالها پیش، محققان تصور میکردند هرچه مدل بزرگتر باشد، بهتر است. در سال ۲۰۲۰، مطالعهای توسط کاپلان و همکاران (Kaplan et al) پیشنهاد داد که اگر بودجهٔ محاسباتی محدودی دارید، باید اولویت را به افزایش پارامترها (Parameters) — یعنی ظرفیت مغزی مدل — بدهید تا مقدار دادههای آموزشی.
بر اساس یافتههای آنها، اگر بودجهٔ محاسباتی را ۱۰ برابر میکردید، باید اندازه مدل را ۵.۵ برابر و تعداد توکنها (Tokens) — تکههای کوچکی از متن، شبیه برشهای یک کیک طولانی که مدل تکهتکه میخورد — را تنها ۱.۸ برابر افزایش میدادید. این رویکرد منجر به خلق مدلهای «متورم» شد؛ مدلهایی که ظرفیت فنی بسیار بالایی داشتند اما بهشدت کمآموز (Undertrained) بودند. در واقع، این رویکرد «مدل-محور» فرض میکرد که مغزهای بزرگتر میتوانند سریعتر و بهینهتر از نمونههای کمتر یاد بگیرند.
اصلاحیه چینچیلا
اما در سال ۲۰۲۲ با مطالعهٔ چینچیلا (Chinchilla) توسط هافمن و همکاران (Hoffmann et al)، ورق برگشت. آنها آزمایشات سیستماتیکی را روی طیف وسیعی از مدلها (از ۷۰ میلیون تا ۱۶ میلیارد پارامتر) و حجمهای مختلف داده (از ۵ میلیارد تا ۵۰۰ میلیارد توکن) انجام دادند. سه روش مستقل تحقیقاتی، آنها را به یک نتیجه واحد رساند: اندازه مدل (N) و توکنهای آموزشی (D) باید به نسبت یکسانی با کل بودجهٔ محاسباتی (C) مقیاس شوند.
به طور مشخص، نسبت بهینه به صورت N ∝ D ∝ √C است. به زبان ساده، این یعنی اگر اندازه مدل را دو برابر میکنید، برای اینکه همچنان در وضعیت «بهینه محاسباتی» باقی بمانید، باید مقدار دادههای آموزشی را نیز دو برابر کنید.
برای اثبات این ادعا، آنها مدل چینچیلا را با ۷۰ میلیارد پارامتر ساختند. این مدل با ۱.۴ تریلیون توکن آموزش دید — یعنی تقریباً چهار برابر بیشتر از پیشینهای خود. نتیجه این بود که چینچیلا توانست مدل غولپیکر گوفر (Gopher) را که ۲۸۰ میلیارد پارامتر داشت اما تنها با ۳۰۰ میلیارد توکن آموزش دیده بود، شکست دهد. این مدل نشان داد که حجم داده در اندازه مدل اثر دارد.
این کشف، تمرکز صنعت را به سمت مدلهای کوچکتر و متراکمتری برد که برای مدتزمان بسیار بیشتری آموزش میبینند. درک بنیادین این بود که اکثر مدلهای اولیه صرفاً «کمبرازش» بودند. طبق مستندات فنی، فرمول تخمینی برای محاسبات (FLOPs) در اینجا C ≈ 6ND است؛ جایی که گذر رو به جلو (Forward Pass) ۲N و گذر رو به عقب (Backward Pass) ۴N برای هر توکن هزینه دارد.
ریاضیات نهفته در جادو
قوانین مقیاسپذیری (Scaling Laws) در واقع ثابتی فیزیکی نیستند، بلکه مشاهداتی بر اساس «قانون توانی» (Power-law) هستند. وقتی اندازه مدل، داده و محاسبات را روی مقیاس لگاریتمی (Log-Log Scale) رسم میکنید، نرخ خطای تست (Cross-Entropy Loss) در امتداد یک خط تقریباً مستقیم کاهش مییابد. این الگوها معمولاً به صورت L ∝ N^{-α}، L ∝ D^{-β} و L ∝ C^{-γ} بیان میشوند. این فرمولها به محققان اجازه میدهند با اجرای آزمایشهای کوچک-مقیاس، نیاز محاسباتی یک مدل عظیم را پیشبینی و برونیافت (Extrapolate) کنند.
این مفهوم جدید نیست. الگوهای مشابهی پیش از این در کارهای آماری توسط آماری (۱۹۹۲)، هستنس و همکاران (۲۰۱۷) و روزنفلد و همکاران (۲۰۲۰) در رابطه با وظایف تصویر و ترجمه ماشینی عصبی (NMT) مشاهده شده بود.
چندین تئوری تلاش میکنند این پدیده را توضیح دهند:
- فرضیه منیفولد داده: توسط شارما و کاپلان (۲۰۲۰) پیشنهاد شد. این تئوری میگوید مدل، یک منیفولد دادهٔ d-بعدی را به O(N) ناحیه تقسیم میکند. بنابراین، با افزایش N، تفکیک و رزولوشن این نواحی طبق یک قانون توانی بهبود مییابد.
- کوانتایزاسیون دانش: توسط میشو (۲۰۲۳) و بریل (۲۰۲۴) پیشنهاد شد. این دیدگاه بیان میکند که مهارتها طبق یک توزیع قانون توانی آموخته میشوند و این امر منجر به کاهش نرم و تدریجی نرخ خطا میگردد.
- سایر عوامل: محققان همچنین مواردی نظیر دمهای طیفی (Spectral Tails)، مقادیر ویژه کرنل (Kernel Eigenvalues) و ویژگیهای آماری ذاتی زبان طبیعی را بررسی کردهاند.
خطر تکرار دادهها
اما یک خطر بزرگ در این مسیر وجود دارد: تکرار دادهها. با کم شدن دادههای متنی باکیفیت، توسعهدهندگان وسوسه میشوند مدل را چندین بار روی یک مجموعه داده (Multiple Epochs) آموزش دهند. این یک بازی خطرناک است. اگرچه تکرار اندک پذیرفتنی است، اما تکرار گسترده منجر به بیشبرازش (Overfitting) میشود؛ یعنی جایی که مدل بهجای یادگیری منطق و تعمیم، صرفاً «پاسخها را حفظ میکند»، شبیه دانشآموزی که فرمول را نمیفهمد اما پاسخ کتاب را حفظ کرده است.
جزئیات مربوط به محدودیتهای داده و بیشبرازش:
- حساسیت: پژوهش هرناندز و همکاران (۲۰۲۲) نشان میدهد دادههای تکراری میتوانند منجر به پدیده «سقوط دوگانه» (Double-Descent) شوند و بهطور قابلتوجهی به عملکرد مدل در مواجهه با دادههای خارج از توزیع (OOD) و نتایج fine-tuning آسیب بزنند.
- داده مؤثر: مونیشوف و همکاران (۲۰۲۳) مدل «مقیاسبندی محدود به داده» را معرفی کردند. آنها دادههای کل (D) را به دادههای منحصربهفرد (U_D) و دادههای تکراری (R_D) تجزیه کردند و پیشنهاد دادند که ارزش توکنهای تکراری بر اساس یک پارامتر «نیمعمر» (r_D) به صورت نمایی کاهش مییابد.
- جریمه اندازه مدل: لاولیس و همکاران (۲۰۲۶) دریافتند مدلهای بزرگتر حتی نسبت به تکرار حساستر هستند. آنها یک جریمه صریح برای بیشبرازش معرفی کردند که متناسب با تعداد پارامترها تقسیم بر دادههای منحصربهفرد، ضرب در تعداد تکرارهاست.
- راهکار: برای کاهش این اثرات، معمولاً از «کاهش وزن» (Weight Decay) قوی به عنوان یک اهرم فنی برای تعدیل بیشبرازش ناشی از دادههای قدیمی استفاده میشود.
تلههای عملی در برازش قوانین
در نهایت باید دانست که برازش (Fitting) یک قانون مقیاسپذیری بهشدت شکننده است. یک خطای کوچک در یک آزمایش مقیاس-کوچک میتواند منجر به اشتباهی چند میلیون دلاری در هنگام برونیافت به یک مدل غولپیکر شود. لیلیان ونگ هشدار میدهد که چون اینها برازشهای تجربی هستند و نه قوانین فیزیکی، اگر جزئیات برازش تغییر کند، پیشبینیها میتوانند بهراحتی «سقوط» (Crash) کنند.
برخی جزئیاتی که میتوانند منحنی پیشبینی را منحرف کنند و منجر به پیشبینیهای غلط شوند عبارتاند از:
- شمارش پارامترها: آیا پارامترهای بردار معنایی (Embedding) — مثل کارت معرفی عددی برای هر واژه که همسایگی کلمات را میگوید — در شمارش N لحاظ شدهاند یا خیر؟ کاپلان آنها را حذف کرد، در حالی که چینچیلا آنها را گنجاند.
- معیارهای زیان: نحوه میانگینگیری از خطا در کل مجموعه داده، دقت (Precision) مورد استفاده و روشهای گرد کردن اعداد.
- ابرپارامترها: تغییرات در زمانبندی نرخ یادگیری (LR)، اندازه دستهها (Batch Size)، ترکیبات دادهای (Data Mixtures) و توکنسازها.
پیرس و سونگ (۲۰۲۴) ثابت کردند که پارامترهای بردار معنایی برای مدلهای کوچک اهمیت بسیار زیادی دارند اما در مقیاسهای بزرگ ناچیز میشوند. آنها نشان دادند در محدوده مدلهای کوچکی که کاپلان استفاده کرد، لحاظ کردن Embeddingها کمک میکند تا توان (Exponent) ~۰.۷۳ بازیابی شود؛ اما در مقیاسهای بزرگتر، این نسبت به سمت ~۰.۵ چینچیلا همگرا میشود.
همچنین بسیرولگو و همکاران (۲۰۲۴) هشدار دادند که برخی روشهای برازش (مانند روش ۳ در مطالعه چینچیلا) میتوانند بیش از حد به دادههای پرت (Outliers) حساس باشند. یک تغییر اندک در نحوه مدیریت یک داده پرت میتواند نسبت بهینه N/D پیشبینی شده را بهطور قابلتوجهی جابهجا کند.
بنابراین، قوانین مقیاسپذیری ابزارهای تجربی هستند، نه قوانین آهنین. آنها یک نقشه ارائه میدهند، اما این نقشه تنها به اندازه دقت اندازهگیریهای اولیه معتبر است. تکیه بر یک برازش خطی ساده برای توجیه هزینههای میلیاردی محاسباتی، یک قمار پرریسک است. برای تسلط بر نسل بعدی هوش مصنوعی، توسعهدهندگان باید دست از نگاه کردن به پارامترها بهعنوان اهرم اصلی بردارند؛ ارزش واقعی در جذب توکنهای دادهای جدید و منحصربهفرد است، نه آموزش مجدد روی دادههای قدیمی.
گام بعدی شما
- اگر در حال آموزش مدل هستید، بهجای افزایش اندازه مدل، روی کیفیت و تنوع دادههای آموزشی تمرکز کنید.
- برای مدلهای کوچکتر، پارامترهای Embedding را در محاسبات مقیاسپذیری لحاظ کنید تا پیشبینیها دقیقتر شوند.
- از تکنیکهای Weight Decay برای جلوگیری از Overfitting در صورت تکرار دادهها استفاده کنید.
اما تأثیر این مدلهای متراکم بر سختافزارهای نسل جدید حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو