تصور کنید مدل زبانی شما بتواند یک مهارت پیچیده را بدون تغییر حتی یک پارامتر از وزنهایش بیاموزد. اگر هنوز فکر میکنید برای ارتقای توانمندیهای هوش مصنوعی زاینده (Generative AI) حتماً به تنظیم دقیق (Fine-tuning) گرانقیمت نیاز دارید، باید بدانید که قواعد بازی در حال تغییر است.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، روشی به نام واژگان ابداعی (Skill Neologisms) معرفی شده است که اجازه میدهد مدلها بدون بهروزرسانی وزنها، مهارتهای جدید را جذب کنند. این تکنیک در واقع از «توکنهای نرم» (Soft Tokens) تخصصی استفاده میکند که به جای تغییر در ساختار مدل، در لایه واژگان ادغام میشوند.
بر اساس مستندات این پژوهش، این متد سه مشکل اساسی را هدف قرار داده است:
- حذف فراموشی فاجعهبار (Catastrophic Forgetting): در تنظیمات دقیق سنتی، مدل هنگام یادگیری مهارت جدید، دانش قبلی را از دست میدهد.
- عبور از محدودیت پنجره بافت (Context Window): برخلاف پرامپتهای طولانی، این توکنها فضای حافظه مدل را اشغال نمیکنند.
- ترکیبپذیری صفر-شات (Zero-shot Composition): مدل میتواند چندین مهارت بهطور مستقل آموزشدیده را بدون نیاز به آموزش مجدد با هم ترکیب کند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای حافظه در مدلهای زبانی بزرگ (Large Language Models) اشاره کردیم، اتکا به حافظه کوتاهمدت مدلها همواره یک نقطه ضعف بوده است. واژگان ابداعی این شکاف را با ایجاد یک مسیر مقیاسپذیر برای یادگیری مستمر پر میکند.
این رویکرد نشان میدهد که مدلهای پیشآموزشدیده در واقع توکنهایی مرتبط با دانش رویهای را در خود دارند و تنها نیاز به بهینهسازی آنها برای مهارتهای خاص است. به باور نویسندگان مقاله، این مکانیسم اجازه میدهد تا قابلیتهای مدل بهصورت انتخابی و بدون نیاز به بهروزرسانیهای هزینهبر گسترش یابد.
اما این تحول در یادگیری، تنها نیمی از داستان است؛ تأثیر این رویکرد بر هزینههای استنتاج (Inference) را در تحلیل بعدی بررسی میکنیم.
گام بعدی شما
- مقاله منتشر شده در arxiv.org را برای درک ریاضیات توکنهای نرم مطالعه کنید.
- اگر در حال توسعه سیستمهای عاملمحور هستید، بررسی کنید که آیا میتوان مهارتها را به صورت ماژولار تعریف کرد.
- تفاوت بین Soft Prompting و Skill Neologisms را در مستندات فنی مقایسه کنید.
گفتگو