سقوط پارادایم آموزش: یافتن معماری‌های مینیمال با قدرت تصادف

تصور کنید بتوانید بهین‌ترین معماری شبکه عصبی را پیدا کنید، بدون اینکه حتی یک ساعت از قدرت پردازشی GPU هزینه کنید. اگر هنوز باور دارید که برای رسیدن به یک مدل بهینه باید ابتدا یک غول پردازشی را آموزش دهید و سپس آن را تراشید، باید بدانید که قواعد بازی تغییر کرده است.

به نقل از مقاله‌ای که در ۲۹ آوریل ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگری به نام خاویر گیل (Javier Gil) متدی را معرفی کرده که نیاز به پس‌انتشار (Backpropagation) را در مراحل اولیه حذف می‌کند. این روش که رندوم کلاود (Random Cloud) نام دارد، به جای آموزش یک مدل عظیم و سپس کوچک کردن آن، از کاوش تصادفی (Stochastic Exploration) برای یافتن ساختارهای بهینه استفاده می‌کند.

طبق اعلام نویسنده، این رویکرد در جستجوی معماری عصبی (Neural Architecture Search) نتایجی خیره‌کننده داشته است:

عملکرد: در ۶ مورد از ۷ مجموعه داده، این روش با متدهای سنتی هرس کردن (Pruning) برابری کرد یا از آن‌ها پیشی گرفت.
دقت: در مجموعه داده Sonar، مدل رندوم کلاود افزایشی ۴.۹ درصدی در دقت نسبت به هرس بر اساس اندازه (Magnitude Pruning) داشت.
فشرده‌سازی: این بهبود دقت در حالی رخ داد که تعداد پارامترها ۸۷ درصد کاهش یافت.
سرعت: هزینه محاسباتی این فرآیند تنها ۰.۶۷ تا ۰.۹۴ برابر یک اجرای کامل آموزش است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، تصور بر این بود که مدل‌های با عملکرد بالا باید از دل وزن‌های پیش‌آموزش‌دیده «تراشیده» شوند. اما رندوم کلاود ثابت می‌کند که «اسکلت» ساختاری یک شبکه می‌تواند تنها از طریق تصادف و کاهش تدریجی کشف شود.

این تحول به این معناست که دیگر نیازی نیست برای یافتن یک معماری بهینه، میلیاردها توکن را پردازش کنید تا سپس متوجه شوید نیمی از شبکه شما بلااستفاده است.

اما آیا این رویکرد تصادفی در مقیاس میلیاردها پارامتر مدل‌های زبانی بزرگ جواب می‌دهد؟ پاسخ این سوال در تحلیل‌های آینده ما نهفته است.

گام بعدی شما

اگر در حال توسعه مدل‌های تخصصی هستید، متد کاوش تصادفی را جایگزین چرخه سنتی آموزش-هرس کنید.
بر روی کاهش پارامترها در مدل‌های لبه (Edge) تمرکز کنید تا سرعت استنتاج را بدون افت دقت افزایش دهید.
مقاله خاویر گیل در arxiv را برای درک ریاضیات پشت این روش مطالعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق اعلام نویسنده، این رویکرد در جستجوی معماری عصبی (Neural Architecture Search) نتایجی خیره‌کننده داشته است:

عملکرد: در ۶ مورد از ۷ مجموعه داده، این روش با متدهای سنتی هرس کردن (Pruning) برابری کرد یا از آن‌ها پیشی گرفت.
دقت: در مجموعه داده Sonar، مدل رندوم کلاود افزایشی ۴.۹ درصدی در دقت نسبت به هرس بر اساس اندازه (Magnitude Pruning) داشت.
فشرده‌سازی: این بهبود دقت در حالی رخ داد که تعداد پارامترها ۸۷ درصد کاهش یافت.
سرعت: هزینه محاسباتی این فرآیند تنها ۰.۶۷ تا ۰.۹۴ برابر یک اجرای کامل آموزش است.

گام بعدی شما

اگر در حال توسعه مدل‌های تخصصی هستید، متد کاوش تصادفی را جایگزین چرخه سنتی آموزش-هرس کنید.
بر روی کاهش پارامترها در مدل‌های لبه (Edge) تمرکز کنید تا سرعت استنتاج را بدون افت دقت افزایش دهید.
مقاله خاویر گیل در arxiv را برای درک ریاضیات پشت این روش مطالعه کنید.

سقوط پارادایم آموزش: یافتن معماری‌های مینیمال با قدرت تصادف

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقوط پارادایم آموزش: یافتن معماری‌های مینیمال با قدرت تصادف

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقوط پارادایم آموزش: یافتن معماری‌های مینیمال با قدرت تصادف

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقوط پارادایم آموزش: یافتن معماری‌های مینیمال با قدرت تصادف

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران