تصور کنید تمام تفاوت بین یک مدل نابغه و یک ماشین حفظکننده، تنها در چند صد گام بهینهسازی خلاصه شده باشد. اگر فکر میکنید مقدار تنظیمات (Regularization) در آموزش مدل مهم است، باید بدانید که زمانبندی آن بسیار حیاتیتر است.
به نقل از پژوهشی که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، سرنوشت تعمیمپذیری ترکیبی (Compositional Generalization) در یک ترنسفورمر (Transformer) توسط دورهی کوتاهی به نام «کنترل پیچیدگی» تعیین میشود. این یافتهها نشان میدهد که موفقیت در مواجهه با دادههای خارج از توزیع (Out-of-distribution یا OOD)، بیش از هر چیز به زمان اعمال تنظیمات وابسته است.
بر اساس مستندات این پژوهش، نتایج بهشدت تکاندهنده است:
- اعمال کاهش وزن (Weight Decay) تنها برای ۲۵٪ از بازهی زمانی آموزش، به دقت ۰.۹۳ در دادههای OOD منجر شد که تقریباً با دقت ۰.۹۱ در حالت آموزش کامل برابری میکند.
- قرار دادن بودجهی تنظیمات در «میانهی» مسیر آموزش، دقت OOD را ۵ تا ۹ برابر بیشتر از اعمال آن در ابتدای مسیر افزایش داد.
- این پنجره بهشدت دقیق است؛ جابهجایی شروع تنظیمات تنها ۱۰۰ گام در بهینهسازی، میتواند دقت میانگین OOD را از سطح تصادفی (۰.۱۵) به رژیم استدلالی (۰.۶۱) پرتاب کند.
همانطور که در تحلیل قبلی ما دربارهی بهینهسازی موتور TRiP و جایگزینی پایتون با C اشاره کردیم، کارایی سختافزاری تنها نیمی از مسیر است؛ نیمی دیگر به کنترل دقیق هایپرپارامترها بازمیگردد. در حالی که موتور سرعت را تامین میکند، این «پنجرهی حیاتی» است که هوش را خلق میکند.
این کشف، باورهای رایج دربارهی مقداردهی اولیه مدل را به چالش میکشد. طبق گزارش arxiv.org، برخلاف تصور بسیاری از متخصصان که مقادیر کوچکتر را همیشه بهتر میدانند، حوضهی جذب (Basin of Attraction) برای راهکارهای استدلالی در مقیاسهای کوچکتر، در واقع کوچکتر میشود.
البته پژوهشگران اشاره کردهاند که این پدیده وابسته به نوع تکلیف (Task-specific) است و در فرآیند «گروکینگ» (Grokking) در محاسبات پیمانهای مشاهده نشده است.
اما این تنها بخشی از معماری است؛ تأثیر این پنجرهها بر مدلهای زبانی کوچک (SLM) را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- زمانبندی کاهش وزن (Weight Decay) را در مدلهای خود بازنگری کنید و آن را به میانه دوره آموزش منتقل کنید.
- به جای افزایش مقدار تنظیمات، روی «دقیقترین زمان» برای شروع آن تمرکز کنید.
- عملکرد مدل خود را روی دادههای OOD در گامهای مختلف بهینهسازی رصد کنید تا پنجرهی حیاتی مدل خود را بیابید.




گفتگو