اگر میخواهید بدانید یک مدل با تریلیون پارامتر چگونه تصمیم میگیرد، باید از کوچکترین واحد آن شروع کنید: پرسپترون. تصور کنید میخواهید یک سیستم ساده بسازید که فقط بگوید یک درخواست شغلی «پذیرفته است» یا «رد شده»؛ تمام ماجرا در تغییر چند عدد خلاصه میشود.
به نقل از وبسایت ranpara.net در ۸ ژوئن ۲۰۲۶، مکانیسم این «کوچکترین مغز» ثابت میکند که دستهبندی دودویی صرفاً حاصل تنظیم یک وزن و یک بایاس است. این ساختار، بذر اولیه هر شبکه عصبی (Neural Network) — شبکهای از سلولهای کوچک، شبیه نقشهٔ مترو، که سیگنال را از ورودی به جواب میرساند — است که امروز در تمام سیستمهای یادگیری عمیق میبینیم.
همانطور که در تحلیلهای قبلی ما دربارهی معماری مدلهای زبانی اشاره کردیم، پیچیدگیهای فعلی از همین بلوکهای ساده ساخته شدهاند. طبق گزارش ranpara.net، سازوکار اصلی بر پایه یک تابع تصمیمگیری است: اگر حاصل (وزن × ورودی + بایاس) بیشتر از صفر باشد، خروجی ۱ است. اجزای کلیدی این سیستم عبارتاند از:
- وزن (Weight): تعیین میکند هر ورودی چقدر روی تصمیم نهایی اثر بگذارد.
- بایاس (Bias): مرز تصمیمگیری را جابهجا میکند؛ بدون آن، مدل در نقطه صفر گیر میکند و نمیتواند مسائلی را حل کند که آستانه تصمیمشان در جای دیگری است.
- نرخ یادگیری (Learning Rate): اندازه اصلاحاتی است که در هر اپوک (Epoch) یا یک دور کامل بررسی دادهها، روی وزنها اعمال میشود.
- نرمالسازی (Normalization) — مثل تبدیل مقیاسهای مختلف (مثلاً سانتیمتر و کیلومتر) به یک واحد مشترک برای اینکه هیچکدام بر دیگری غلبه نکند — برای جلوگیری از ناپایداری یادگیری ضروری است.
برای یک توسعهدهنده، درک پرسپترون «جعبه سیاه» هوش مصنوعی را میشکند. این موضوع نشان میدهد استدلالهای پیچیده، فقط نتیجهی روی هم چیدن این تقسیمکنندههای خطی هستند. اگر ورودیهای شما دور از صفر باشند (مثل نمرات امتحان)، بایاس یک انتخاب نیست، بلکه تنها راه جابهجایی مرز تصمیم است. بر اساس مستندات این گزارش، حذف بایاس در سناریوی «قبولی/ردی»، دقت مدل را به حدود ۵۰٪ میرساند.
گام بعدی شما
- پیادهسازی پایتون نویسنده را امتحان کنید و ببینید نرخ یادگیری بالا چگونه سرعت همگرایی را تغییر میدهد.
- سعی کنید یک مجموعه داده ساده (مثل تشخیص میوه بر اساس وزن و اندازه) را با یک پرسپترون مدل کنید.
- بررسی کنید که چگونه تغییر بایاس، خط تصمیم را در نمودار دو بعدی جابهجا میکند.
اما وقتی این سلولها در لایههای مختلف روی هم قرار میگیرند، جادوی واقعی یعنی یادگیری غیرخطی اتفاق میافتد — به بررسی معماری MLP در گزارشهای بعدی ما توجه کنید.
گفتگو