«تراکم داده‌ها» کلید برتری مدل‌های کوچک بر مدل‌های عظیم

تخیل کنید آشپزی داشته باشید که حافظه‌ای خارق‌العاده دارد اما فقط ۱۰ غذا پخته است؛ او پتانسیل یادگیری دارد اما تجربهٔ کافی برای مهارت واقعی را ندارد. این استعاره از آموزش یک سرآشپز در سطح جهانی، دقیقاً جوهره توسعه هوش مصنوعی را توصیف می‌کند. این وضعیت همان چیزی است که مدل‌های غول‌پیکر هوش مصنوعی در سال‌های نخسته با آن دست‌وپنجه نرم می‌کردند.

به نقل از وبلاگ لیلیان ونگ در ۲۴ ژوئن ۲۰۲۶، صنعت هوش مصنوعی از تعقیب مدل‌های عظیم به سمت بهینه‌سازی تعادل میان حجم داده و اندازه مدل، یا آنچه «تعادل بهینه محاسباتی» (Compute-Optimal Balance) نامیده می‌شود، تغییر مسیر داده است. سال‌ها پیش، محققان تصور می‌کردند هرچه مدل بزرگ‌تر باشد، بهتر است. در سال ۲۰۲۰، مطالعه‌ای توسط کاپلان و همکاران (Kaplan et al) پیشنهاد داد که اگر بودجهٔ محاسباتی محدودی دارید، باید اولویت را به افزایش پارامترها (Parameters) — یعنی ظرفیت مغزی مدل — بدهید تا مقدار داده‌های آموزشی.

بر اساس یافته‌های آن‌ها، اگر بودجهٔ محاسباتی را ۱۰ برابر می‌کردید، باید اندازه مدل را ۵.۵ برابر و تعداد توکن‌ها (Tokens) — تکه‌های کوچکی از متن، شبیه برش‌های یک کیک طولانی که مدل تکه‌تکه می‌خورد — را تنها ۱.۸ برابر افزایش می‌دادید. این رویکرد منجر به خلق مدل‌های «متورم» شد؛ مدل‌هایی که ظرفیت فنی بسیار بالایی داشتند اما به‌شدت کم‌آموز (Undertrained) بودند. در واقع، این رویکرد «مدل-محور» فرض می‌کرد که مغزهای بزرگ‌تر می‌توانند سریع‌تر و بهینه‌تر از نمونه‌های کمتر یاد بگیرند.

اصلاحیه چینچیلا

اما در سال ۲۰۲۲ با مطالعهٔ چینچیلا (Chinchilla) توسط هافمن و همکاران (Hoffmann et al)، ورق برگشت. آن‌ها آزمایشات سیستماتیکی را روی طیف وسیعی از مدل‌ها (از ۷۰ میلیون تا ۱۶ میلیارد پارامتر) و حجم‌های مختلف داده (از ۵ میلیارد تا ۵۰۰ میلیارد توکن) انجام دادند. سه روش مستقل تحقیقاتی، آن‌ها را به یک نتیجه واحد رساند: اندازه مدل (N) و توکن‌های آموزشی (D) باید به نسبت یکسانی با کل بودجهٔ محاسباتی (C) مقیاس شوند.

به طور مشخص، نسبت بهینه به صورت N ∝ D ∝ √C است. به زبان ساده، این یعنی اگر اندازه مدل را دو برابر می‌کنید، برای اینکه همچنان در وضعیت «بهینه محاسباتی» باقی بمانید، باید مقدار داده‌های آموزشی را نیز دو برابر کنید.

برای اثبات این ادعا، آن‌ها مدل چینچیلا را با ۷۰ میلیارد پارامتر ساختند. این مدل با ۱.۴ تریلیون توکن آموزش دید — یعنی تقریباً چهار برابر بیشتر از پیشین‌های خود. نتیجه این بود که چینچیلا توانست مدل غول‌پیکر گوفر (Gopher) را که ۲۸۰ میلیارد پارامتر داشت اما تنها با ۳۰۰ میلیارد توکن آموزش دیده بود، شکست دهد. این مدل نشان داد که حجم داده در اندازه مدل اثر دارد.

این کشف، تمرکز صنعت را به سمت مدل‌های کوچک‌تر و متراکم‌تری برد که برای مدت‌زمان بسیار بیشتری آموزش می‌بینند. درک بنیادین این بود که اکثر مدل‌های اولیه صرفاً «کم‌برازش» بودند. طبق مستندات فنی، فرمول تخمینی برای محاسبات (FLOPs) در اینجا C ≈ 6ND است؛ جایی که گذر رو به جلو (Forward Pass) ۲N و گذر رو به عقب (Backward Pass) ۴N برای هر توکن هزینه دارد.

ریاضیات نهفته در جادو

قوانین مقیاس‌پذیری (Scaling Laws) در واقع ثابتی فیزیکی نیستند، بلکه مشاهداتی بر اساس «قانون توانی» (Power-law) هستند. وقتی اندازه مدل، داده و محاسبات را روی مقیاس لگاریتمی (Log-Log Scale) رسم می‌کنید، نرخ خطای تست (Cross-Entropy Loss) در امتداد یک خط تقریباً مستقیم کاهش می‌یابد. این الگوها معمولاً به صورت L ∝ N^{-α}، L ∝ D^{-β} و L ∝ C^{-γ} بیان می‌شوند. این فرمول‌ها به محققان اجازه می‌دهند با اجرای آزمایش‌های کوچک-مقیاس، نیاز محاسباتی یک مدل عظیم را پیش‌بینی و برون‌یافت (Extrapolate) کنند.

این مفهوم جدید نیست. الگوهای مشابهی پیش از این در کارهای آماری توسط آماری (۱۹۹۲)، هستنس و همکاران (۲۰۱۷) و روزنفلد و همکاران (۲۰۲۰) در رابطه با وظایف تصویر و ترجمه ماشینی عصبی (NMT) مشاهده شده بود.

چندین تئوری تلاش می‌کنند این پدیده را توضیح دهند:

فرضیه منیفولد داده: توسط شارما و کاپلان (۲۰۲۰) پیشنهاد شد. این تئوری می‌گوید مدل، یک منیفولد دادهٔ d-بعدی را به O(N) ناحیه تقسیم می‌کند. بنابراین، با افزایش N، تفکیک و رزولوشن این نواحی طبق یک قانون توانی بهبود می‌یابد.
کوانتایزاسیون دانش: توسط میشو (۲۰۲۳) و بریل (۲۰۲۴) پیشنهاد شد. این دیدگاه بیان می‌کند که مهارت‌ها طبق یک توزیع قانون توانی آموخته می‌شوند و این امر منجر به کاهش نرم و تدریجی نرخ خطا می‌گردد.
سایر عوامل: محققان همچنین مواردی نظیر دم‌های طیفی (Spectral Tails)، مقادیر ویژه کرنل (Kernel Eigenvalues) و ویژگی‌های آماری ذاتی زبان طبیعی را بررسی کرده‌اند.

خطر تکرار داده‌ها

اما یک خطر بزرگ در این مسیر وجود دارد: تکرار داده‌ها. با کم شدن داده‌های متنی باکیفیت، توسعه‌دهندگان وسوسه می‌شوند مدل را چندین بار روی یک مجموعه داده (Multiple Epochs) آموزش دهند. این یک بازی خطرناک است. اگرچه تکرار اندک پذیرفتنی است، اما تکرار گسترده منجر به بیش‌برازش (Overfitting) می‌شود؛ یعنی جایی که مدل به‌جای یادگیری منطق و تعمیم، صرفاً «پاسخ‌ها را حفظ می‌کند»، شبیه دانش‌آموزی که فرمول را نمی‌فهمد اما پاسخ کتاب را حفظ کرده است.

جزئیات مربوط به محدودیت‌های داده و بیش‌برازش:

حساسیت: پژوهش هرناندز و همکاران (۲۰۲۲) نشان می‌دهد داده‌های تکراری می‌توانند منجر به پدیده «سقوط دوگانه» (Double-Descent) شوند و به‌طور قابل‌توجهی به عملکرد مدل در مواجهه با داده‌های خارج از توزیع (OOD) و نتایج fine-tuning آسیب بزنند.
داده مؤثر: مونیشوف و همکاران (۲۰۲۳) مدل «مقیاس‌بندی محدود به داده» را معرفی کردند. آن‌ها داده‌های کل (D) را به داده‌های منحصر‌به‌فرد (U_D) و داده‌های تکراری (R_D) تجزیه کردند و پیشنهاد دادند که ارزش توکن‌های تکراری بر اساس یک پارامتر «نیم‌عمر» (r_D) به صورت نمایی کاهش می‌یابد.
جریمه اندازه مدل: لاولیس و همکاران (۲۰۲۶) دریافتند مدل‌های بزرگ‌تر حتی نسبت به تکرار حساس‌تر هستند. آن‌ها یک جریمه صریح برای بیش‌برازش معرفی کردند که متناسب با تعداد پارامترها تقسیم بر داده‌های منحصر‌به‌فرد، ضرب در تعداد تکرارهاست.
راهکار: برای کاهش این اثرات، معمولاً از «کاهش وزن» (Weight Decay) قوی به عنوان یک اهرم فنی برای تعدیل بیش‌برازش ناشی از داده‌های قدیمی استفاده می‌شود.

تله‌های عملی در برازش قوانین

در نهایت باید دانست که برازش (Fitting) یک قانون مقیاس‌پذیری به‌شدت شکننده است. یک خطای کوچک در یک آزمایش مقیاس-کوچک می‌تواند منجر به اشتباهی چند میلیون دلاری در هنگام برون‌یافت به یک مدل غول‌پیکر شود. لیلیان ونگ هشدار می‌دهد که چون این‌ها برازش‌های تجربی هستند و نه قوانین فیزیکی، اگر جزئیات برازش تغییر کند، پیش‌بینی‌ها می‌توانند به‌راحتی «سقوط» (Crash) کنند.

برخی جزئیاتی که می‌توانند منحنی پیش‌بینی را منحرف کنند و منجر به پیش‌بینی‌های غلط شوند عبارت‌اند از:

شمارش پارامترها: آیا پارامترهای بردار معنایی (Embedding) — مثل کارت معرفی عددی برای هر واژه که همسایگی کلمات را می‌گوید — در شمارش N لحاظ شده‌اند یا خیر؟ کاپلان آن‌ها را حذف کرد، در حالی که چینچیلا آن‌ها را گنجاند.
معیارهای زیان: نحوه میانگین‌گیری از خطا در کل مجموعه داده، دقت (Precision) مورد استفاده و روش‌های گرد کردن اعداد.
ابرپارامترها: تغییرات در زمان‌بندی نرخ یادگیری (LR)، اندازه دسته‌ها (Batch Size)، ترکیبات داده‌ای (Data Mixtures) و توکن‌سازها.

پیرس و سونگ (۲۰۲۴) ثابت کردند که پارامترهای بردار معنایی برای مدل‌های کوچک اهمیت بسیار زیادی دارند اما در مقیاس‌های بزرگ ناچیز می‌شوند. آن‌ها نشان دادند در محدوده مدل‌های کوچکی که کاپلان استفاده کرد، لحاظ کردن Embeddingها کمک می‌کند تا توان (Exponent) ~۰.۷۳ بازیابی شود؛ اما در مقیاس‌های بزرگتر، این نسبت به سمت ~۰.۵ چینچیلا هم‌گرا می‌شود.

همچنین بسیرولگو و همکاران (۲۰۲۴) هشدار دادند که برخی روش‌های برازش (مانند روش ۳ در مطالعه چینچیلا) می‌توانند بیش از حد به داده‌های پرت (Outliers) حساس باشند. یک تغییر اندک در نحوه مدیریت یک داده پرت می‌تواند نسبت بهینه N/D پیش‌بینی شده را به‌طور قابل‌توجهی جابه‌جا کند.

بنابراین، قوانین مقیاس‌پذیری ابزارهای تجربی هستند، نه قوانین آهنین. آن‌ها یک نقشه ارائه می‌دهند، اما این نقشه تنها به اندازه دقت اندازه‌گیری‌های اولیه معتبر است. تکیه بر یک برازش خطی ساده برای توجیه هزینه‌های میلیاردی محاسباتی، یک قمار پرریسک است. برای تسلط بر نسل بعدی هوش مصنوعی، توسعه‌دهندگان باید دست از نگاه کردن به پارامترها به‌عنوان اهرم اصلی بردارند؛ ارزش واقعی در جذب توکن‌های داده‌ای جدید و منحصر‌به‌فرد است، نه آموزش مجدد روی داده‌های قدیمی.

گام بعدی شما

اگر در حال آموزش مدل هستید، به‌جای افزایش اندازه مدل، روی کیفیت و تنوع داده‌های آموزشی تمرکز کنید.
برای مدل‌های کوچک‌تر، پارامترهای Embedding را در محاسبات مقیاس‌پذیری لحاظ کنید تا پیش‌بینی‌ها دقیق‌تر شوند.
از تکنیک‌های Weight Decay برای جلوگیری از Overfitting در صورت تکرار داده‌ها استفاده کنید.

اما تأثیر این مدل‌های متراکم بر سخت‌افزارهای نسل جدید حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

اصلاحیه چینچیلا

ریاضیات نهفته در جادو

چندین تئوری تلاش می‌کنند این پدیده را توضیح دهند:

فرضیه منیفولد داده: توسط شارما و کاپلان (۲۰۲۰) پیشنهاد شد. این تئوری می‌گوید مدل، یک منیفولد دادهٔ d-بعدی را به O(N) ناحیه تقسیم می‌کند. بنابراین، با افزایش N، تفکیک و رزولوشن این نواحی طبق یک قانون توانی بهبود می‌یابد.
کوانتایزاسیون دانش: توسط میشو (۲۰۲۳) و بریل (۲۰۲۴) پیشنهاد شد. این دیدگاه بیان می‌کند که مهارت‌ها طبق یک توزیع قانون توانی آموخته می‌شوند و این امر منجر به کاهش نرم و تدریجی نرخ خطا می‌گردد.
سایر عوامل: محققان همچنین مواردی نظیر دم‌های طیفی (Spectral Tails)، مقادیر ویژه کرنل (Kernel Eigenvalues) و ویژگی‌های آماری ذاتی زبان طبیعی را بررسی کرده‌اند.

خطر تکرار داده‌ها

جزئیات مربوط به محدودیت‌های داده و بیش‌برازش:

حساسیت: پژوهش هرناندز و همکاران (۲۰۲۲) نشان می‌دهد داده‌های تکراری می‌توانند منجر به پدیده «سقوط دوگانه» (Double-Descent) شوند و به‌طور قابل‌توجهی به عملکرد مدل در مواجهه با داده‌های خارج از توزیع (OOD) و نتایج fine-tuning آسیب بزنند.
داده مؤثر: مونیشوف و همکاران (۲۰۲۳) مدل «مقیاس‌بندی محدود به داده» را معرفی کردند. آن‌ها داده‌های کل (D) را به داده‌های منحصر‌به‌فرد (U_D) و داده‌های تکراری (R_D) تجزیه کردند و پیشنهاد دادند که ارزش توکن‌های تکراری بر اساس یک پارامتر «نیم‌عمر» (r_D) به صورت نمایی کاهش می‌یابد.
جریمه اندازه مدل: لاولیس و همکاران (۲۰۲۶) دریافتند مدل‌های بزرگ‌تر حتی نسبت به تکرار حساس‌تر هستند. آن‌ها یک جریمه صریح برای بیش‌برازش معرفی کردند که متناسب با تعداد پارامترها تقسیم بر داده‌های منحصر‌به‌فرد، ضرب در تعداد تکرارهاست.
راهکار: برای کاهش این اثرات، معمولاً از «کاهش وزن» (Weight Decay) قوی به عنوان یک اهرم فنی برای تعدیل بیش‌برازش ناشی از داده‌های قدیمی استفاده می‌شود.

تله‌های عملی در برازش قوانین

برخی جزئیاتی که می‌توانند منحنی پیش‌بینی را منحرف کنند و منجر به پیش‌بینی‌های غلط شوند عبارت‌اند از:

شمارش پارامترها: آیا پارامترهای بردار معنایی (Embedding) — مثل کارت معرفی عددی برای هر واژه که همسایگی کلمات را می‌گوید — در شمارش N لحاظ شده‌اند یا خیر؟ کاپلان آن‌ها را حذف کرد، در حالی که چینچیلا آن‌ها را گنجاند.
معیارهای زیان: نحوه میانگین‌گیری از خطا در کل مجموعه داده، دقت (Precision) مورد استفاده و روش‌های گرد کردن اعداد.
ابرپارامترها: تغییرات در زمان‌بندی نرخ یادگیری (LR)، اندازه دسته‌ها (Batch Size)، ترکیبات داده‌ای (Data Mixtures) و توکن‌سازها.

گام بعدی شما

اگر در حال آموزش مدل هستید، به‌جای افزایش اندازه مدل، روی کیفیت و تنوع داده‌های آموزشی تمرکز کنید.
برای مدل‌های کوچک‌تر، پارامترهای Embedding را در محاسبات مقیاس‌پذیری لحاظ کنید تا پیش‌بینی‌ها دقیق‌تر شوند.
از تکنیک‌های Weight Decay برای جلوگیری از Overfitting در صورت تکرار داده‌ها استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«تراکم داده‌ها» کلید برتری مدل‌های کوچک بر مدل‌های عظیم

اصلاحیه چینچیلا

ریاضیات نهفته در جادو

خطر تکرار داده‌ها

تله‌های عملی در برازش قوانین

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«تراکم داده‌ها» کلید برتری مدل‌های کوچک بر مدل‌های عظیم

اصلاحیه چینچیلا

ریاضیات نهفته در جادو

خطر تکرار داده‌ها

تله‌های عملی در برازش قوانین

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«تراکم داده‌ها» کلید برتری مدل‌های کوچک بر مدل‌های عظیم

اصلاحیه چینچیلا

ریاضیات نهفته در جادو

خطر تکرار داده‌ها

تله‌های عملی در برازش قوانین

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«تراکم داده‌ها» کلید برتری مدل‌های کوچک بر مدل‌های عظیم

اصلاحیه چینچیلا

ریاضیات نهفته در جادو

خطر تکرار داده‌ها

تله‌های عملی در برازش قوانین

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران