تصور کنید بتوانید بهینترین معماری شبکه عصبی را پیدا کنید، بدون اینکه حتی یک ساعت از قدرت پردازشی GPU هزینه کنید. اگر هنوز باور دارید که برای رسیدن به یک مدل بهینه باید ابتدا یک غول پردازشی را آموزش دهید و سپس آن را تراشید، باید بدانید که قواعد بازی تغییر کرده است.
به نقل از مقالهای که در ۲۹ آوریل ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگری به نام خاویر گیل (Javier Gil) متدی را معرفی کرده که نیاز به پسانتشار (Backpropagation) را در مراحل اولیه حذف میکند. این روش که رندوم کلاود (Random Cloud) نام دارد، به جای آموزش یک مدل عظیم و سپس کوچک کردن آن، از کاوش تصادفی (Stochastic Exploration) برای یافتن ساختارهای بهینه استفاده میکند.
طبق اعلام نویسنده، این رویکرد در جستجوی معماری عصبی (Neural Architecture Search) نتایجی خیرهکننده داشته است:
- عملکرد: در ۶ مورد از ۷ مجموعه داده، این روش با متدهای سنتی هرس کردن (Pruning) برابری کرد یا از آنها پیشی گرفت.
- دقت: در مجموعه داده Sonar، مدل رندوم کلاود افزایشی ۴.۹ درصدی در دقت نسبت به هرس بر اساس اندازه (Magnitude Pruning) داشت.
- فشردهسازی: این بهبود دقت در حالی رخ داد که تعداد پارامترها ۸۷ درصد کاهش یافت.
- سرعت: هزینه محاسباتی این فرآیند تنها ۰.۶۷ تا ۰.۹۴ برابر یک اجرای کامل آموزش است.
همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، تصور بر این بود که مدلهای با عملکرد بالا باید از دل وزنهای پیشآموزشدیده «تراشیده» شوند. اما رندوم کلاود ثابت میکند که «اسکلت» ساختاری یک شبکه میتواند تنها از طریق تصادف و کاهش تدریجی کشف شود.
این تحول به این معناست که دیگر نیازی نیست برای یافتن یک معماری بهینه، میلیاردها توکن را پردازش کنید تا سپس متوجه شوید نیمی از شبکه شما بلااستفاده است.
اما آیا این رویکرد تصادفی در مقیاس میلیاردها پارامتر مدلهای زبانی بزرگ جواب میدهد؟ پاسخ این سوال در تحلیلهای آینده ما نهفته است.
گام بعدی شما
- اگر در حال توسعه مدلهای تخصصی هستید، متد کاوش تصادفی را جایگزین چرخه سنتی آموزش-هرس کنید.
- بر روی کاهش پارامترها در مدلهای لبه (Edge) تمرکز کنید تا سرعت استنتاج را بدون افت دقت افزایش دهید.
- مقاله خاویر گیل در arxiv را برای درک ریاضیات پشت این روش مطالعه کنید.




گفتگو