اگر تصور میکنید افزایش بیپایان حجم دادهها تنها راه رسیدن به هوش انسانی است، باید با مفهوم «پرتاب» آشنا شوید. باید بدانید که تکیه بر دادههای بیشتر، احتمالاً ما را به جای رسیدن به استدلال، در تلهی یادگیری آماری پیشرفته گرفتار کرده است.
به نقل از تحلیل منتشرشده در ۶ ژوئن ۲۰۲۶ در وبسایت gwern.net، شکاف میان شبکههای عصبی مصنوعی و مغز انسان در مفهوم تعمیمپذیری (Generalization) نهفته است. در حالی که مدلهای فعلی در کارهای تکراری میدرخشند، در مواجهه با دادههای خارج از توزیع یا مسائل ریاضی پیچیده، بهسرعت شکست میخورند. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، بهینهسازی دادهها بر اساس قوانین «چینچیلا» لزوماً به معنای درک عمیق مفاهیم نیست.
طبق این گزارش، معماری پیشنهادی برای یک «مدل زبانی انسانگونه» (HLLM) نیازمند سه تغییر بنیادین در دینامیک آموزش است:
- بیشپارامتری شدید (Extreme Overparameterization): استفاده از مدلهایی با ۱۰ تا ۱۰۰ تریلیون پارامتر برای ایجاد یک چشمانداز زیان (Loss Landscape) نرم و پیوسته.
- نرخ یادگیری چرخهای: بهکارگیری برنامههای نرخ یادگیری بالا برای «پرتاب» مدل از نقاط کمینه (Minima) محلی که مربوط به حفظ کردن دادههاست، به سمت حوضههای گستردهتری که تعمیمپذیری در آنها رخ میدهد.
- مجموعهدادههای کوچک و منتخب: استفاده از دادههای بسیار پالایششده و متنوع (در مقیاس BabyLM) برای جلوگیری از بیشبرازش (Overfitting) روی حقایق بدیهی پیش از شکلگیری هستهی الگوریتمیک مدل.
بر اساس این تحلیل، این متدولوژی از تز ایزوپریمتریک (Isoperimetry) بهره میبرد؛ تزی که بیان میکند مقیاسهای عظیم پارامتر برای تقریب زدن منحنیهای نرم در فضای پنهان (Latent Space) ضروری هستند، نه مرزهای خطی و دندانهداری که شبکههای عصبی فعلی میسازند. این رویکرد در واقع گردش کاری را تعریف میکند که در آن مدل ابتدا در ابعادی عظیم آموزش دیده و سپس فشرده میشود تا در برابر حملات متخاصم (Adversarial Attacks) مقاوم باشد.
از منظر فنی، این پیشنهاد گلوگاه اصلی پیشرفت را از «کسب داده» به «توانایی تکرار روی معماریهای بسیار عمیق» تغییر میدهد. این بدان معناست که وسواس فعلی صنعت روی «بهینهسازی استنتاج» در مدلهای کوچک، ممکن است مانع از کشف ساختارهای هدف شود که تنها در مقیاسهای عظیم ظهور میکنند.
گام بعدی شما
- بررسی نتایج بنچمارکهای محاسباتی برای شناسایی نقاط عطف در مدلهای «پرتابشده».
- تحلیل اثر نرخ یادگیری چرخهای بر کاهش توهمات در مدلهای بازمتن.
- دنبال کردن پژوهشهای مرتبط با تز ایزوپریمتریک در فضای پنهان مدلها.
اما تأثیر این تغییر پارادایم بر سختافزارهای نسل بعدی حتی پیچیدهتر است — به تحلیل ما دربارهی معماری تراشههای Blackwell مراجعه کنید.

گفتگو