آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

تصور کنید مدل‌های فعلی هوش مصنوعی صرفاً «طوطی‌های بسیار باهوش» هستند که دنیا را از طریق آمارهای احتمالی می‌بینند، نه از طریق درک منطقی. اگر می‌خواهید بدانید چرا GPT-4 در مسائل ساده ریاضی شکست می‌خورد اما در نوشتن شعر استاد است، پاسخ احتمالاً در تفاوت میان «حفظ کردن» و «درک کردن» نهفته است.

گوِرن (Gwern) در ۶ ژوئن ۲۰۲۶ یک پارادایم آموزشی نظری را پیشنهاد کرد که مدعی است شبکه‌های عصبی (Neural Networks) تنها زمانی به تعمیم‌پذیری سطح بیولوژیکی می‌رسند که پدیده‌ای به نام «پرتاب» (Catapulting) رخ دهد. این نظریه در حالی مطرح می‌شود که صنعت هوش مصنوعی با بن‌بست مقیاس‌بندی مدل‌ها به سبک «چینچیلا» (Chinchilla) مواجه شده است؛ جایی که افزودن داده‌های بیشتر دیگر منجر به جهش‌های کیفی نمی‌شود.

به نقل از تحلیل‌های منتشر شده در gwern.net، تفاوت بنیادین مغز انسان و مدل‌های زبانی بزرگ (LLM) در مدیریت توازن «بایاس-واریانس» است. در حالی که LLMها تلاش می‌کنند واریانس را به حداقل برسانند، مغز انسان روی کاهش بایاس تمرکز دارد. نویسنده پیشنهاد می‌کند که تغییر بزرگ در پارادایم مقیاس‌بندی باید از این طریق باشد: مغز انسان از طریق بیش‌پارامتری شدید (به سبک Double Descent) و استراتژی آموزش با نرخ یادگیری بسیار بالا روی مجموعه‌های داده کوچک، متنوع و به شدت پالایش‌شده، به این هدف می‌رسد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های مقیاس‌بندی مدل‌های بازمتن اشاره کردیم، تکیه صرف بر حجم داده نمی‌تواند شکاف‌های ساختاری تفکر را پر کند. طبق این نظریه، مدل‌های فعلی دچار چندین شکست بحرانی هستند که به عنوان «سنتز جامع» (Master Synthesis) ناهماهنگی‌ها توصیف شده‌اند و پارادایم فعلی برای توضیح آن‌ها بیش از حد کلی است:

ناکارآمدی نمونه‌برداری: مدل‌های فعلی به تریلیون‌ها توکن و مقیاس‌بندی سبک چینچیلا نیاز دارند. در مقابل، انسان‌ها با داده‌هایی چندین مرتبه کمتر و احتمالاً مجموع محاسباتی کمتر یاد می‌گیرند. این موضوع با تصورات پیشگامان ارتباط‌گرایی مانند آلن تورینگ که آموزش هوش مصنوعی را شبیه به کودکان با یک برنامه درسی و مراحل رشد می‌دید، در تضاد است. نویسنده اشاره می‌کند که نتایج نظری مانند «یادگیرندگان نایکوئیست» (Nyquist learners) در سال ۲۰۲۱ توسط روزنفلد، پیچیدگی این معما را بیشتر می‌کند.
شکنندگی در برابر حملات متخاصم: یک دهه پس از کشف نمونه‌های متخاصم (۲۰۱۳-۲۰۱۴)، این مشکل همچنان حل‌نشده باقی مانده است. شبکه‌های عصبی به جای منحنی‌های نرم، «منیفولدهای دارای فرورفتگی» (Dimpled Manifolds) یا مرزهای تصمیم‌گیری خطی و شکننده می‌سازند. در حالی که انسان‌ها را می‌توان فریب داد، اما برای رساندن آن‌ها به یک خطای معنادار، نیاز به تغییراتی چنان بزرگ است که دیگر معنادار به نظر نمی‌رسند. مدل‌های پیشرو فعلی به ندرت برای کاهش این شکنندگی تلاش می‌کنند و دفاع‌هایی مانند آموزش متخاصم (Adversarial Training) اغلب به تعمیم‌پذیری مدل آسیب می‌زند.
حفظ کردن در برابر انتزاع: مدل‌ها اغلب داده‌های آموزشی را حفظ می‌کنند (Overfitting) به جای اینکه الگوریتم زیربنایی را یاد بگیرند. این امر منجر به عملکرد «شکننده» در محاسبات پیچیده ریاضی و ناتوانی در تعمیم فراتر از توزیع داده‌های آموزشی می‌شود. این وضعیت با «فراموشی دوران کودکی» در انسان‌ها در تضاد است؛ جایی که انسان‌ها تقریباً تمام دوران کودکی خود را فراموش می‌کنند، ویژگی‌ای که احتمالاً به تصمیم‌گیری انعطاف‌پذیر کمک می‌کند.
توهم پهنای باند حسی: برخی استدلال می‌کنند انسان‌ها به دلیل دریافت داده‌های حسی خام (بینایی، صدا، لمس) بیشتر، سریع‌تر یاد می‌گیرند. اما نویسنده اشاره می‌کند که این ورودی‌ها به شدت تکراری (Redundant) هستند. کوانتیزه کردن محتوای اطلاعاتی نشان می‌دهد که تصاویر و ویدیوها اغلب به چند صد یا هزار توکن خلاصه می‌شوند. علاوه بر این، افراد نابینا یا ناشنوا نیز هوش سیال نرمالی دارند، که ثابت می‌کند پهنای باند عامل حیاتی نیست.
شکست تجسد (Embodiment): ایده «شناخت تجسد یافته» پیشنهاد می‌کند که هوش مصنوعی به دلیل نداشتن بدن، فاقد عقل سلیم (Commonsense) است. با این حال، آموزش روی داده‌های رباتیک (مانند مدل Gato) هیچ انتقال مهارتی به وظایف دیگر یا جهش بزرگی در قوانین مقیاس‌بندی نشان نداده است. به طرز کنایه‌آمیزی، مدل‌های رباتیک بیشتر از LLMهای پیش‌آموزش‌دیده (که تجسد ندارند) سود می‌برند تا برعکس.
محدودیت‌های یادگیری فعال: اگرچه کودکان می‌توانند انتخاب کنند چه چیزی را یاد بگیرند، اما انتخاب‌های واقعی آن‌ها اغلب غیربهینه است. آن‌ها ممکن است یک ویدیو در یوتیوب را صدها بار تماشا کنند یا به طور تصادفی با کامپیوتر کلیک کنند. این نشان می‌دهد که «کاوش بهینه بیزی» محرک اصلی کارآمدی نمونه‌برداری در انسان نیست.

در مورد معماری بیولوژیکی، نویسنده استدلال می‌کند که ما به اشتباه نورون‌های بیولوژیکی را «معماری کامل» می‌پنداریم، در حالی که علوم اعصاب الهامات بسیار کمی برای مدل‌های پیشرفته شبکه‌های عصبی فراهم کرده است:

قوانین یادگیری: از زمانی که هب در سال ۱۹۴۹ اولین قانون یادگیری را پیشنهاد کرد، جایگزین‌های بیولوژیکی بسیاری برای پس‌انتشار (Backpropagation) پیشنهاد شده است. با این حال، این روش‌ها همواره عملکردی ضعیف‌تر یا مشابه پس‌انتشار داشته‌اند. همان‌طور که جف هینتون اشاره کرد، GPT-4 ممکن است در واقع الگوریتم یادگیری بهتری نسبت به انسان داشته باشد.
مقیاس‌بندی مغز: مغز انسان به نظر می‌رسد «نسخه بزرگ‌شده مغز پستانداران نخستین» است. اگر معماری کلید اصلی بود، مغز پرندگان (زاغ‌ها و طوطی‌ها) باید توانایی کمتری می‌داشت، اما آن‌ها با وجود اندازه کوچک‌تر و بهره‌وری ترمودینامیکی بیشتر، هوش و پیچیدگی رفتاری خیره‌کننده‌ای نشان می‌دهند.
شکاف پارامتری: مدل GPT-3 حدود ۰.۱ تریلیون پارامتر دارد، در حالی که مغز انسان به طور تقریبی ۱۰۰ تریلیون پارامتر دارد. بسیاری از نتایج علوم اعصاب حاکی از آن است که هر پارامتر بیولوژیکی معادل هزاران پارامتر در شبکه‌های عصبی است. اگر یک LLM که یک‌دهمِ صخره‌ایِ مغز است، عملکرد مناسبی دارد، این یعنی مغز انسان یا بسیار ناکارآمد است یا LLMها چیزی را گم کرده‌اند که برای مدیریت آن نیازی به یک GPT-3 کامل نیست.
فراموشکاری انسان: انسان‌ها دچار فراموشی دوران کودکی و جهل عمومی در مقایسه با NNها هستند. یک LLM می‌تواند صفحات متنی را تنها با یک بار مشاهده حفظ کند، در حالی که انسان‌ها در یادآوری حقایق ساده‌ای مانند «چه جهتی از چهره لینکلن روی سکه یک سنت است؟» دچار مشکل می‌شوند.
کندی رشد: رشد انسان زمان بسیار زیادی می‌برد. برخی حیوانات شکارچی ساعت‌ها پس از تولد می‌توانند بدوند، اما یک کودک انسان تا بیش از ۵۰۰۰ ساعت نمی‌تواند بخزد. این امر نشان‌دهنده فقدان «مدولاریته انبوه» یا پیش‌فرض‌های اطلاعاتی تکاملی است و با بسیاری از نظریات روانشناسی تکاملی در تضاد است.

مرکز این پیشنهاد، پدیده «گروکینگ» (Grokking) است؛ وضعیتی که در آن مدل پس از دوره‌ای طولانی از آموزش و حفظ کردن، ناگهان به یک راهکار تعمیم‌پذیر «پرتاب» می‌شود. در مقاله اصلی گروکینگ، یک شبکه عصبی کوچک که روی ریاضیات آموزش دیده، ابتدا ۰٪ خطای آموزش اما ۱۰۰٪ خطای تست دارد، تا اینکه ناگهان به یک الگوریتم تعمیم‌پذیر پرتاب می‌شود.

از نظر مکانیکی، مدل یک بهینه محلی نزدیک را می‌یابد که نشان‌دهنده راهکار «حفظ کردن» است. اما کاهش وزن (Weight Decay) یا سایر روش‌های منظم‌سازی باعث می‌شود این بهینه محلی بیش از حد باریک باشد و نتواند شبکه را برای همیشه در خود نگه دارد. سپس مدل به طور تصادفی یا از طریق «پرتاب» از راهکار اولیه خارج شده و به منطقه جدیدی از فضای مدل می‌رود. این منطقه جدید از نظر ذاتی ساده‌تر است و بنابراین حتی در حضور خطای داده‌ها، بهتر تعمیم می‌یابد.

برای بازسازی این وضعیت در مدل‌های بزرگ، سه گام پیشنهاد شده است:

۱. بیش‌پارامتری شدید: استفاده از مدل‌هایی که احتمالاً از ۱۰۰ تریلیون پارامتر فراتر می‌روند. این بر اساس تز «ایزوپری‌متری» (Isoperimetry) است که پیشنهاد می‌کند مدل‌هایی مانند مدل‌های ImageNet حداقل دو مرتبه کوچک‌تر از حد نیاز برای تعریف مرزهای نرم و غیرخطی هستند. یک مدل در مقیاس GPT-3 ممکن است به ۱۰۰ تریلیون پارامتر نیاز داشته باشد تا از مرزهای خطی و شکننده اجتناب کند.
۲. نرخ یادگیری چرخه‌ای بالا: استفاده از زمان‌بندی‌هایی که نرخ یادگیری را به شدت افزایش می‌دهند تا مدل را از بهینه‌های محلی (Local Minima) بیرون برانند. این کار شبیه‌سازی مراحل رشد کودکی انسان است، جایی که دوره‌های اکتشاف با خطای بالا، با دوره‌های تثبیت با نرخ یادگیری پایین دنبال می‌شوند. این «ابر-همگرایی» (Super-convergence) دستاوردهای کوتاه‌مدت کاهش خطا را فدای افزایش توانمندی‌های بلندمدت می‌کند.
۳. داده‌های کوچک و باکیفیت: آموزش روی داده‌های متنوع و به شدت پالایش‌شده (مانند مقیاس BabyLM با حدود ۰.۱ میلیارد کلمه) برای جریمه کردن حفظ کردن خام. با محدود کردن حجم نمونه، مدل مجبور می‌شود به جای تکیه بر میان‌برهای آماری، انتزاعات را بیابد.

برای آزمایش این نظریه، پیشنهاد شده است روی «ریاضیات» تمرکز شود؛ کوچک‌ترین مسئله‌ای که LLMها در آن هنوز شکننده هستند. حتی GPT-4 اغلب در اجرای ریاضیات واقعی شکست می‌خورد و به جای آن به اکتشافات جزئی (Heuristics) تکیه می‌کند.

بستر آزمایش: پژوهشگران باید سخت‌ترین ۰.۱٪ مسائل ریاضی (آن‌هایی که فقدان تسلط الگوریتمی واقعی را برملا می‌کنند) فیلتر کرده و از آن‌ها به عنوان داده‌های کنار-گذاشته شده (Held-out) برای بررسی قوانین مقیاس‌بندی استفاده کنند. این کار مانع از آن می‌شود که موارد متوسط، پیشرفت در مسائل نادر و سخت را بپوشانند.
معماری: یک «مدل زبانی سطح انسانی» (HLLM) باید «لاغر» باشد و عمق را بر عرض ترجیح دهد. شبکه‌های پهن تمایل بیشتری به حفظ کردن دارند، در حالی که شبکه‌های عمیق‌تر استدلال‌های الگوریتمی را بهتر بیان می‌کنند. این رویکرد می‌تواند معماری‌های MLP بسیار کارآمدی را فراهم کند، به شرطی که رژیم «پرتاب» محقق شود.
دینامیک آموزش: مدل یک مرحله «یادگیری حقایق» (حفظ کردن) را می‌گذراند و سپس وارد مرحله «تامل» (Pondering) می‌شود، جایی که برای درک گشتالت داده‌ها تلاش می‌کند تا زمانی که الگوریتم تعمیم‌پذیر ظهور کند. در این حالت، هر مینی‌بچ مانند یک «اندیشه» دیگر درباره داده‌ها عمل می‌کند.

فراتر از آموزش استاتیک، پیشنهاد «گروکینگ پویا» (Dynamic Grokking) مطرح شده است. این روش شامل ارزیابی پویا است؛ یعنی تنظیم دقیق (Fine-tuning) مدل در زمان اجرا روی یک مسئله سخت خاص برای شبیه‌سازی «اثر جوشش» (Incubation Effect) در انسان.

به جای جستجوی درختی به سبک MCTS، این فرآیند از انعطاف‌پذیری عصبی مکرر (گام‌های نزول گرادیان) برای به‌روزرسانی وزن‌های مدل استفاده می‌کند تا زمانی که یک تغییر فاز رخ دهد و راهکار ظاهر شود. این امر نیازمند سخت‌افزارهای با تأخیر بسیار کم مانند تراشه‌های Cerebras است تا از نظر محاسباتی امکان‌پذیر باشد.

در نهایت، نویسنده شباهت‌هایی میان این دینامیک و خواب یا سندرم ساوانت (Savantism) می‌بیند:

خواب: با ارجاع به نظریه SHY تونیونی، خواب ممکن است یک رویداد منظم‌ساز جهانی باشد. با رشد وزن‌ها در حین یادگیری، تقاضای انرژی افزایش یافته و حفظ کردن آسان‌تر می‌شود. خواب وزن‌ها را به طور همزمان «منقبض» می‌کند تا کارایی و منظم‌سازی بازیابی شود. رویاها نیز به عنوان ابزاری برای افزایش کارآمدی نمونه‌برداری از طریق بازپخش شدید تجربیات (Experience Replay) دیده می‌شوند.
ساوانت‌ها: ساوانت‌ها (مانند کیم پیک یا سولومون شرشفسکی) به عنوان «نسخه LLM» انسان‌ها توصیف شده‌اند. کیم پیک می‌توانست کتاب‌ها را در یک دور (Epoch) حفظ کند اما با ضرب‌المثل‌های رایج مشکل داشت. سولومون شرشفسکی می‌توانست هر نسخه از یک چهره را به یاد آورد اما نمی‌توانست تعمیم دهد که یک چهره در حال حاضر چگونه به نظر می‌رسد. این موارد نشان می‌دهد وقتی فرآیندهای سطح بالا (که اغلب با تروماهای نیمکره چپ مرتبط هستند) غیرفعال شوند، هوش خام سطح پایین مغز — که با حفظ کردن ساده ارضا می‌شود — نمایان می‌گردد.
اثر فون نویمان: توانایی جان فون نویمان در حفظ کردن صفحات کتاب‌ها افسانه‌ای بود، اما یوجین ویگنر اشاره کرد که این دستاوردها واقعاً اصیل نبودند. این موضوع دقیقاً بازتاب‌دهنده توانایی LLMها در تبدیل شدن به یک پیش‌بینی‌کننده فوق‌بشری توکن بعدی است، در حالی که همچنان در بنچمارک‌های خلاقیت واقعی یا استخراج ماهیت (Essence-drilling) ضعیف عمل می‌کنند.

این نظریه چالش بزرگی برای وسواس فعلی صنعت بر روی مقیاس‌بندی «بهینه-محاسباتی» (Compute-optimal) است. اگر تز «ایزوپری‌متری» درست باشد، مدل‌های فعلی صرفاً کوچک‌تر از آن هستند که مرزهای تصمیم‌گیری نرم را تعریف کنند و همین امر آن‌ها را ذاتاً در برابر حملات متخاصم آسیب‌پذیر می‌کند. تلاش برای اصلاح این مرزها با داده‌های بیشتر، نیازمند مقادیر نجومی داده است که وجود ندارد، مگر اینکه مدل به یک حوضه (Basin) جدید «پرتاب» شود.

با اولویت دادن به «پرتاب» به جای «برازش» (Fit)، این حوزه می‌تواند به سمت مدل‌هایی حرکت کند که نه تنها پیش‌بینی‌کننده‌های بهتری هستند، بلکه به دلیل یادگیری دشوارِ «منیفولد ارزش»، واقعاً همسو و ایمن هستند. این امر مزیت رقابتی را از کسانی که بیشترین داده را دارند، به کسانی منتقل می‌کند که پیچیده‌ترین «دستورالعمل» (Sauce) آموزشی را دارند.

برای متخصصان فنی، این بدان معناست که توقف زودهنگام (Early Stopping) و کمینه‌سازی حریصانه خطا (Greedy Loss Minimization) در واقع مانع مسیر رسیدن به AGI هستند. دستاوردهای واقعی ممکن است در «دره ناخوشایند» آموزش نهفته باشد؛ جایی که عملکرد راکد به نظر می‌رسد پیش از آنکه یک جهش عظیم و ناگهانی در توانمندی رخ دهد. نشانه‌های آزمایش این پارادایم را در پژوهش‌های نوظهور درباره «هم-پارامتری‌سازی» (Equiparameterization) و کاربرد نرخ‌های یادگیری چرخه‌ای در مدل‌های متراکم تریلیون-پارامتری جستجو کنید.

گام بعدی شما

اگر پژوهشگر ML هستید، نرخ‌های یادگیری چرخه‌ای (Cyclical Learning Rates) را در مدل‌های کوچک‌تر برای مشاهده پدیده Grokking تست کنید.
بر روی داده‌های سنتتیک ریاضی تمرکز کنید تا تفاوت میان «پاسخ درست از طریق حفظ کردن» و «پاسخ درست از طریق الگوریتم» را بسنجید.
پیشرفت‌های سخت‌افزاری در کاهش تأخیر حافظه را دنبال کنید، زیرا اجرای «گروکینگ پویا» بدون سخت‌افزارهای تخصصی غیرممکن است.

اما تأثیر این تغییر پارادایم بر امنیت مدل‌ها حتی تکان‌دهنده‌تر است؛ در تحلیل ما درباره‌ی «مرزهای تصمیم‌گیری و حملات متخاصم» بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ناکارآمدی نمونه‌برداری: مدل‌های فعلی به تریلیون‌ها توکن و مقیاس‌بندی سبک چینچیلا نیاز دارند. در مقابل، انسان‌ها با داده‌هایی چندین مرتبه کمتر و احتمالاً مجموع محاسباتی کمتر یاد می‌گیرند. این موضوع با تصورات پیشگامان ارتباط‌گرایی مانند آلن تورینگ که آموزش هوش مصنوعی را شبیه به کودکان با یک برنامه درسی و مراحل رشد می‌دید، در تضاد است. نویسنده اشاره می‌کند که نتایج نظری مانند «یادگیرندگان نایکوئیست» (Nyquist learners) در سال ۲۰۲۱ توسط روزنفلد، پیچیدگی این معما را بیشتر می‌کند.
شکنندگی در برابر حملات متخاصم: یک دهه پس از کشف نمونه‌های متخاصم (۲۰۱۳-۲۰۱۴)، این مشکل همچنان حل‌نشده باقی مانده است. شبکه‌های عصبی به جای منحنی‌های نرم، «منیفولدهای دارای فرورفتگی» (Dimpled Manifolds) یا مرزهای تصمیم‌گیری خطی و شکننده می‌سازند. در حالی که انسان‌ها را می‌توان فریب داد، اما برای رساندن آن‌ها به یک خطای معنادار، نیاز به تغییراتی چنان بزرگ است که دیگر معنادار به نظر نمی‌رسند. مدل‌های پیشرو فعلی به ندرت برای کاهش این شکنندگی تلاش می‌کنند و دفاع‌هایی مانند آموزش متخاصم (Adversarial Training) اغلب به تعمیم‌پذیری مدل آسیب می‌زند.
حفظ کردن در برابر انتزاع: مدل‌ها اغلب داده‌های آموزشی را حفظ می‌کنند (Overfitting) به جای اینکه الگوریتم زیربنایی را یاد بگیرند. این امر منجر به عملکرد «شکننده» در محاسبات پیچیده ریاضی و ناتوانی در تعمیم فراتر از توزیع داده‌های آموزشی می‌شود. این وضعیت با «فراموشی دوران کودکی» در انسان‌ها در تضاد است؛ جایی که انسان‌ها تقریباً تمام دوران کودکی خود را فراموش می‌کنند، ویژگی‌ای که احتمالاً به تصمیم‌گیری انعطاف‌پذیر کمک می‌کند.
توهم پهنای باند حسی: برخی استدلال می‌کنند انسان‌ها به دلیل دریافت داده‌های حسی خام (بینایی، صدا، لمس) بیشتر، سریع‌تر یاد می‌گیرند. اما نویسنده اشاره می‌کند که این ورودی‌ها به شدت تکراری (Redundant) هستند. کوانتیزه کردن محتوای اطلاعاتی نشان می‌دهد که تصاویر و ویدیوها اغلب به چند صد یا هزار توکن خلاصه می‌شوند. علاوه بر این، افراد نابینا یا ناشنوا نیز هوش سیال نرمالی دارند، که ثابت می‌کند پهنای باند عامل حیاتی نیست.
شکست تجسد (Embodiment): ایده «شناخت تجسد یافته» پیشنهاد می‌کند که هوش مصنوعی به دلیل نداشتن بدن، فاقد عقل سلیم (Commonsense) است. با این حال، آموزش روی داده‌های رباتیک (مانند مدل Gato) هیچ انتقال مهارتی به وظایف دیگر یا جهش بزرگی در قوانین مقیاس‌بندی نشان نداده است. به طرز کنایه‌آمیزی، مدل‌های رباتیک بیشتر از LLMهای پیش‌آموزش‌دیده (که تجسد ندارند) سود می‌برند تا برعکس.
محدودیت‌های یادگیری فعال: اگرچه کودکان می‌توانند انتخاب کنند چه چیزی را یاد بگیرند، اما انتخاب‌های واقعی آن‌ها اغلب غیربهینه است. آن‌ها ممکن است یک ویدیو در یوتیوب را صدها بار تماشا کنند یا به طور تصادفی با کامپیوتر کلیک کنند. این نشان می‌دهد که «کاوش بهینه بیزی» محرک اصلی کارآمدی نمونه‌برداری در انسان نیست.

قوانین یادگیری: از زمانی که هب در سال ۱۹۴۹ اولین قانون یادگیری را پیشنهاد کرد، جایگزین‌های بیولوژیکی بسیاری برای پس‌انتشار (Backpropagation) پیشنهاد شده است. با این حال، این روش‌ها همواره عملکردی ضعیف‌تر یا مشابه پس‌انتشار داشته‌اند. همان‌طور که جف هینتون اشاره کرد، GPT-4 ممکن است در واقع الگوریتم یادگیری بهتری نسبت به انسان داشته باشد.
مقیاس‌بندی مغز: مغز انسان به نظر می‌رسد «نسخه بزرگ‌شده مغز پستانداران نخستین» است. اگر معماری کلید اصلی بود، مغز پرندگان (زاغ‌ها و طوطی‌ها) باید توانایی کمتری می‌داشت، اما آن‌ها با وجود اندازه کوچک‌تر و بهره‌وری ترمودینامیکی بیشتر، هوش و پیچیدگی رفتاری خیره‌کننده‌ای نشان می‌دهند.
شکاف پارامتری: مدل GPT-3 حدود ۰.۱ تریلیون پارامتر دارد، در حالی که مغز انسان به طور تقریبی ۱۰۰ تریلیون پارامتر دارد. بسیاری از نتایج علوم اعصاب حاکی از آن است که هر پارامتر بیولوژیکی معادل هزاران پارامتر در شبکه‌های عصبی است. اگر یک LLM که یک‌دهمِ صخره‌ایِ مغز است، عملکرد مناسبی دارد، این یعنی مغز انسان یا بسیار ناکارآمد است یا LLMها چیزی را گم کرده‌اند که برای مدیریت آن نیازی به یک GPT-3 کامل نیست.
فراموشکاری انسان: انسان‌ها دچار فراموشی دوران کودکی و جهل عمومی در مقایسه با NNها هستند. یک LLM می‌تواند صفحات متنی را تنها با یک بار مشاهده حفظ کند، در حالی که انسان‌ها در یادآوری حقایق ساده‌ای مانند «چه جهتی از چهره لینکلن روی سکه یک سنت است؟» دچار مشکل می‌شوند.
کندی رشد: رشد انسان زمان بسیار زیادی می‌برد. برخی حیوانات شکارچی ساعت‌ها پس از تولد می‌توانند بدوند، اما یک کودک انسان تا بیش از ۵۰۰۰ ساعت نمی‌تواند بخزد. این امر نشان‌دهنده فقدان «مدولاریته انبوه» یا پیش‌فرض‌های اطلاعاتی تکاملی است و با بسیاری از نظریات روانشناسی تکاملی در تضاد است.

برای بازسازی این وضعیت در مدل‌های بزرگ، سه گام پیشنهاد شده است:

بستر آزمایش: پژوهشگران باید سخت‌ترین ۰.۱٪ مسائل ریاضی (آن‌هایی که فقدان تسلط الگوریتمی واقعی را برملا می‌کنند) فیلتر کرده و از آن‌ها به عنوان داده‌های کنار-گذاشته شده (Held-out) برای بررسی قوانین مقیاس‌بندی استفاده کنند. این کار مانع از آن می‌شود که موارد متوسط، پیشرفت در مسائل نادر و سخت را بپوشانند.
معماری: یک «مدل زبانی سطح انسانی» (HLLM) باید «لاغر» باشد و عمق را بر عرض ترجیح دهد. شبکه‌های پهن تمایل بیشتری به حفظ کردن دارند، در حالی که شبکه‌های عمیق‌تر استدلال‌های الگوریتمی را بهتر بیان می‌کنند. این رویکرد می‌تواند معماری‌های MLP بسیار کارآمدی را فراهم کند، به شرطی که رژیم «پرتاب» محقق شود.
دینامیک آموزش: مدل یک مرحله «یادگیری حقایق» (حفظ کردن) را می‌گذراند و سپس وارد مرحله «تامل» (Pondering) می‌شود، جایی که برای درک گشتالت داده‌ها تلاش می‌کند تا زمانی که الگوریتم تعمیم‌پذیر ظهور کند. در این حالت، هر مینی‌بچ مانند یک «اندیشه» دیگر درباره داده‌ها عمل می‌کند.

در نهایت، نویسنده شباهت‌هایی میان این دینامیک و خواب یا سندرم ساوانت (Savantism) می‌بیند:

خواب: با ارجاع به نظریه SHY تونیونی، خواب ممکن است یک رویداد منظم‌ساز جهانی باشد. با رشد وزن‌ها در حین یادگیری، تقاضای انرژی افزایش یافته و حفظ کردن آسان‌تر می‌شود. خواب وزن‌ها را به طور همزمان «منقبض» می‌کند تا کارایی و منظم‌سازی بازیابی شود. رویاها نیز به عنوان ابزاری برای افزایش کارآمدی نمونه‌برداری از طریق بازپخش شدید تجربیات (Experience Replay) دیده می‌شوند.
ساوانت‌ها: ساوانت‌ها (مانند کیم پیک یا سولومون شرشفسکی) به عنوان «نسخه LLM» انسان‌ها توصیف شده‌اند. کیم پیک می‌توانست کتاب‌ها را در یک دور (Epoch) حفظ کند اما با ضرب‌المثل‌های رایج مشکل داشت. سولومون شرشفسکی می‌توانست هر نسخه از یک چهره را به یاد آورد اما نمی‌توانست تعمیم دهد که یک چهره در حال حاضر چگونه به نظر می‌رسد. این موارد نشان می‌دهد وقتی فرآیندهای سطح بالا (که اغلب با تروماهای نیمکره چپ مرتبط هستند) غیرفعال شوند، هوش خام سطح پایین مغز — که با حفظ کردن ساده ارضا می‌شود — نمایان می‌گردد.
اثر فون نویمان: توانایی جان فون نویمان در حفظ کردن صفحات کتاب‌ها افسانه‌ای بود، اما یوجین ویگنر اشاره کرد که این دستاوردها واقعاً اصیل نبودند. این موضوع دقیقاً بازتاب‌دهنده توانایی LLMها در تبدیل شدن به یک پیش‌بینی‌کننده فوق‌بشری توکن بعدی است، در حالی که همچنان در بنچمارک‌های خلاقیت واقعی یا استخراج ماهیت (Essence-drilling) ضعیف عمل می‌کنند.

گام بعدی شما

اگر پژوهشگر ML هستید، نرخ‌های یادگیری چرخه‌ای (Cyclical Learning Rates) را در مدل‌های کوچک‌تر برای مشاهده پدیده Grokking تست کنید.
بر روی داده‌های سنتتیک ریاضی تمرکز کنید تا تفاوت میان «پاسخ درست از طریق حفظ کردن» و «پاسخ درست از طریق الگوریتم» را بسنجید.
پیشرفت‌های سخت‌افزاری در کاهش تأخیر حافظه را دنبال کنید، زیرا اجرای «گروکینگ پویا» بدون سخت‌افزارهای تخصصی غیرممکن است.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

آیا «پرتاب» مدل‌های فوق-پارامتری مشکل تعمیم‌پذیری هوش مصنوعی را حل می‌کند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران