تصور کنید ساعتها هزینه محاسباتی صرف میکنید تا یک پروتئین جدید طراحی کنید، اما مدل شما در یک حلقه تکراری گیر کرده و هرگز به جواب بهینه نمیرسد. اگر هنوز از روشهای رایج بهینهسازی برای توزیعهای احتمالی استفاده میکنید، احتمالاً بخشی از کارایی سیستم خود را از دست دادهاید.
به نقل از مانگوس راس (Magnus Ross)، بسیاری از متخصصان یادگیری ماشین امروز به اشتباه تصور میکنند که بهینهسازی مسئلهای حلشده است. این رویکرد «گرادیان کاهشی برای همه چیز» باعث شده تا مفاهیم بنیادین ریاضیات بهینهسازی فراموش شوند. در حالی که ابزارهایی مثل Adam یا AdaGrad بسیار محبوباند، اما نادیده گرفتن هندسه فضای جستوجو در حوزههای حساس مثل طراحی پروتئین، منجر به نتایج ضعیف میشود.
همانطور که در تحلیلهای گذشته ما دربارهی محدودیتهای مدلهای مولد اشاره کردیم، تفاوت میان یک جواب «به اندازه کافی خوب» و یک جواب «بهینه»، در درک دقیق ریاضیات پشت پرده است. این چالشها در مدلهای زبانی نیز تکرار میشوند، بهطوری که گاهی اصلاحهای سطحی تابع پاداش برای رفع خطاهای پیچیده کافی نیست و نیاز به بازنگری در چارچوبهای بنیادین بهینهسازی دارد. در دنیای واقعی، ما با توزیعهای احتمالی دستوپنجه نرم میکنیم — مثل یک ترازوی حساس که باید مجموع وزنهایش دقیقاً برابر یک شود و هیچ وزن منفیای نداشته باشد. این یعنی ما در فضای یک «سیمپلکس» (Simplex) حرکت میکنیم.
طبق مستندات راس، روش ابتدایی او استفاده از گرادیان کاهشی (Gradient Descent) — یعنی حرکت در جهت مخالف شیب تابع برای رسیدن به کمترین مقدار — و سپس «اصلاح» اجباری نتایج برای بازگشت به فضای سیمپلکس بود. این روش که «گرادیان کاهشی تصویرشده» نام دارد، در توابع غیرمحدب دچار مشکل میشود. مشکل این است که مرحله اصلاح، عملاً پیشرفتی که گرادیان به دست آورده را خنثی میکند و مدل را دچار رفتارهای زیگزاگی و همگرایی کند میکند.
برای حل این معضل، راس به سراغ مفهوم Mirror Descent رفت. او دریافت که فاصله اقلیدسی (که در گرادیان کاهشی استاندارد استفاده میشود) برای توزیعهای احتمالی معیار مناسبی نیست. در عوض، واگرایی کولبک-لایبلر (KL Divergence) ابزار بهتری برای اندازهگیری فاصله بین دو توزیع است. با جایگزینی تصویر اقلیدسی با تصویر Bregman بر اساس KL Divergence، فرآیند بهینهسازی با هندسه سیمپلکس همراستا شد.
این تغییر، بهروزرسانیهای مدل را از حالت جمعی به حالت ضربی تغییر داد. در طراحی پروتئین، هر «دسته» نشاندهنده یک اسید آمینه احتمالی در یک موقعیت خاص است. تابع هدف (f(x)) نیز معیاری مثل انرژی اتصال یا پایداری است. از آنجا که محاسبه این امتیازها نیازمند شبیهسازیهای پیچیده یا استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند، شبیه خودِ آشپزی و نه دورهی آموزش آشپز — از شبکههای عصبی گرانقیمت است، هر تکرار بهینهساز اهمیت حیاتی دارد. روشی که به ۱۰۰۰ تکرار نیاز دارد، در برابر روشی که در ۱۰۰ تکرار به جواب میرسد، از نظر هزینه غیرقابل دفاع است.
راس همچنین بر اهمیت نرخ یادگیری (Learning Rate) تاکید کرد. در روشهای استاندارد، نرخ یادگیری ثابت باعث پرش از روی نقطه بهینه یا توقف زودهنگام میشود. اما در چارچوب Mirror Descent، میتوان از نرخ یادگیری تطبیقی استفاده کرد که انحنای فضای احتمالات را در نظر میگیرد. این کار نیاز به اصلاحات تهاجمی را کم میکند و قصد اصلی گرادیان را حفظ میکند.
این روایت، هشداری است درباره ماهیت «جعبه سیاه» ابزارهای مدرن AI. تکیه بر کتابخانههای سطح بالا که پیچیدگیها را پنهان میکنند، وسوسهانگیز است، اما درک محدودیتهای مسئله اجازه میدهد ابزار ریاضی درست را انتخاب کنیم. در حوزههایی مثل بیوانفورماتیک یا زیستشناسی ساختاری، جایی که هزینه محاسبات بالا و دقت حیاتی است، یادگیری بهینهسازی مقید صرفاً یک موضوع آکادمیک نیست، بلکه یک ضرورت کاربردی است.
گام بعدی شما
- اگر در حال کار با توزیعهای احتمالی هستید، به جای Projected Gradient Descent، متد Mirror Descent را بررسی کنید.
- برای کاهش هزینههای استنتاج در مدلهای بیولوژیکی، روی هندسه فضای جستوجوی (KL Divergence) مطالعه کنید.
- بررسی کنید که آیا نرخ یادگیری شما با انحنای فضای دادههایتان سازگار است یا خیر.
اما این بهینهسازیها تنها بخشی از ماجراست؛ تأثیر سختافزارهای جدید بر سرعت این شبیهسازیها را در تحلیل ما درباره تراشههای اختصاصی بیوتک دنبال کنید.




گفتگو