پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

تصور کنید تمام تفاوت بین یک مدل نابغه و یک ماشین حفظ‌کننده، تنها در چند صد گام بهینه‌سازی خلاصه شده باشد. اگر فکر می‌کنید مقدار تنظیمات (Regularization) در آموزش مدل مهم است، باید بدانید که زمان‌بندی آن بسیار حیاتی‌تر است.

به نقل از پژوهشی که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، سرنوشت تعمیم‌پذیری ترکیبی (Compositional Generalization) در یک ترنسفورمر (Transformer) توسط دوره‌ی کوتاهی به نام «کنترل پیچیدگی» تعیین می‌شود. این یافته‌ها نشان می‌دهد که موفقیت در مواجهه با داده‌های خارج از توزیع (Out-of-distribution یا OOD)، بیش از هر چیز به زمان اعمال تنظیمات وابسته است.

بر اساس مستندات این پژوهش، نتایج به‌شدت تکان‌دهنده است:

اعمال کاهش وزن (Weight Decay) تنها برای ۲۵٪ از بازه‌ی زمانی آموزش، به دقت ۰.۹۳ در داده‌های OOD منجر شد که تقریباً با دقت ۰.۹۱ در حالت آموزش کامل برابری می‌کند.
قرار دادن بودجه‌ی تنظیمات در «میانه‌ی» مسیر آموزش، دقت OOD را ۵ تا ۹ برابر بیشتر از اعمال آن در ابتدای مسیر افزایش داد.
این پنجره به‌شدت دقیق است؛ جابه‌جایی شروع تنظیمات تنها ۱۰۰ گام در بهینه‌سازی، می‌تواند دقت میانگین OOD را از سطح تصادفی (۰.۱۵) به رژیم استدلالی (۰.۶۱) پرتاب کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی موتور TRiP و جایگزینی پایتون با C اشاره کردیم، کارایی سخت‌افزاری تنها نیمی از مسیر است؛ نیمی دیگر به کنترل دقیق هایپرپارامترها بازمی‌گردد. در حالی که موتور سرعت را تامین می‌کند، این «پنجره‌ی حیاتی» است که هوش را خلق می‌کند.

این کشف، باورهای رایج درباره‌ی مقداردهی اولیه مدل را به چالش می‌کشد. طبق گزارش arxiv.org، برخلاف تصور بسیاری از متخصصان که مقادیر کوچک‌تر را همیشه بهتر می‌دانند، حوضه‌ی جذب (Basin of Attraction) برای راهکارهای استدلالی در مقیاس‌های کوچک‌تر، در واقع کوچک‌تر می‌شود.

البته پژوهشگران اشاره کرده‌اند که این پدیده وابسته به نوع تکلیف (Task-specific) است و در فرآیند «گروکینگ» (Grokking) در محاسبات پیمانه‌ای مشاهده نشده است.

اما این تنها بخشی از معماری است؛ تأثیر این پنجره‌ها بر مدل‌های زبانی کوچک (SLM) را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

زمان‌بندی کاهش وزن (Weight Decay) را در مدل‌های خود بازنگری کنید و آن را به میانه دوره آموزش منتقل کنید.
به جای افزایش مقدار تنظیمات، روی «دقیق‌ترین زمان» برای شروع آن تمرکز کنید.
عملکرد مدل خود را روی داده‌های OOD در گام‌های مختلف بهینه‌سازی رصد کنید تا پنجره‌ی حیاتی مدل خود را بیابید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات این پژوهش، نتایج به‌شدت تکان‌دهنده است:

اعمال کاهش وزن (Weight Decay) تنها برای ۲۵٪ از بازه‌ی زمانی آموزش، به دقت ۰.۹۳ در داده‌های OOD منجر شد که تقریباً با دقت ۰.۹۱ در حالت آموزش کامل برابری می‌کند.
قرار دادن بودجه‌ی تنظیمات در «میانه‌ی» مسیر آموزش، دقت OOD را ۵ تا ۹ برابر بیشتر از اعمال آن در ابتدای مسیر افزایش داد.
این پنجره به‌شدت دقیق است؛ جابه‌جایی شروع تنظیمات تنها ۱۰۰ گام در بهینه‌سازی، می‌تواند دقت میانگین OOD را از سطح تصادفی (۰.۱۵) به رژیم استدلالی (۰.۶۱) پرتاب کند.

گام بعدی شما

زمان‌بندی کاهش وزن (Weight Decay) را در مدل‌های خود بازنگری کنید و آن را به میانه دوره آموزش منتقل کنید.
به جای افزایش مقدار تنظیمات، روی «دقیق‌ترین زمان» برای شروع آن تمرکز کنید.
عملکرد مدل خود را روی داده‌های OOD در گام‌های مختلف بهینه‌سازی رصد کنید تا پنجره‌ی حیاتی مدل خود را بیابید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پنجره‌ای کوتاه که سرنوشت استدلال مدل شما را تعیین می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران