تصور کنید برای ارتقای مهارت یک تیم ۱۰۰ نفره، بهجای آموزش همگانی، تنها به یک نفر در مرکز تیم آموزش دهید و کل سازمان همان بازدهی را تجربه کند. این دقیقاً همان اتفاقی است که در لایههای مدلهای زبانی رخ میدهد.
طبق تحلیل فنی منتشر شده در arxiv.org در تاریخ ۲ ژوئیه ۲۰۲۶، انطباق مدلها در فرآیند یادگیری تقویتی (Reinforcement Learning) بهصورت یکنواخت در سراسر مدل پخش نمیشود، بلکه در زیرمجموعه کوچکی از لایهها متمرکز است. این یافته، استاندارد فعلی صنعت را که بهروزرسانی تمام پارامترها (Parameters) در طول یادگیری تقویتی را ضروری میداند، به چالش میکشد.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، درک ساختار درونی مدلها برای بهینهسازی منابع حیاتی است. این مطالعه برخلاف ارزیابیهای کلی مانند DiffusionBench که بر بنچمارکهای جامع تمرکز داشتند، سهم ساختاری هر لایه را بهطور مجزا بررسی کرده است.
پژوهشگران این فرضیه را روی هفت مدل از خانوادههای Qwen3 و Qwen2.5 آزمایش کردند. آنها از سه الگوریتم مختلف یادگیری تقویتی شامل GRPO، GiGPO و Dr. GRPO در حوزههای تولید کد، استدلال ریاضی و تصمیمگیریهای عاملمحور (Agentic) استفاده کردند.
یافتههای کلیدی این مطالعه عبارتند از:
- معرفی معیار «سهم لایه» برای اندازهگیری میزان بهبود بازیافتشده از آموزش یک لایه بهصورت مجزا.
- شناسایی یک الگوی ساختاری ثابت که در آن لایههای با سهم بالا، در بخش میانی پشتهی ترنسفورمر (Transformer) متمرکز شدهاند.
- سهم بسیار اندک لایههای نزدیک به ورودی و خروجی مدل در فرآیند بهبود.
برای جامعه فنی، این موضوع فرضیه برابری سهم لایهها در دستاوردهای یادگیری تقویتی را میشکند. به نظر میرسد تنظیم کامل پارامترها از نظر محاسباتی اتلافی باشد، زیرا بخش اصلی انطباق در یک باند معماری باریک رخ میدهد. این کشف راه را برای رژیمهای پسآموزش بسیار بهینهتری باز میکند که تنها لایههای میانی را هدف قرار میدهند.
توسعهدهندگان اکنون باید بررسی کنند که آیا تنظیم لایههای هدفمند میتواند هزینههای محاسباتی RLHF را بدون کاهش تواناییهای استدلالی کم کند یا خیر.
گام بعدی شما
- بررسی توزیع سهم لایهها در مدلهای بازمتن برای کاهش هزینه Fine-tuning.
- آزمایش متدهای PEFT روی لایههای میانی بهجای توزیع یکنواخت آداپتورها.
- رصد تغییرات این لایههای حساس در مدلهای با مقیاسهای مختلف.
اما سوال بزرگتر این است که آیا این لایههای حساس با تغییر مقیاس مدلها جابهجا میشوند یا ثابت میمانند؛ پاسخی که در تحلیلهای آینده معماریهای مدلهای استدلالی خواهیم یافت.




گفتگو