اگر برای شخصیسازی مدلهای خود تنها به LoRA تکیه کردهاید، احتمالاً با توهماتی مواجه هستید که با اطمینان کامل بیان میشوند. باید بدانید که تقلید از لحن کاربر هرگز به معنای درک درست از «نبودِ اطلاعات» نیست.
طبق پژوهشی که در ۱۱ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، شخصیسازی در مدل زبانی بزرگ (LLM) یک معیار یکپارچه نیست، بلکه ترکیبی از سه محور مستقل است: سازگاری رفتاری، حضور واقعیتها و فقدان واقعیتها.
در حال حاضر، استراتژیهای حافظه در هوش مصنوعی معمولاً میان تنظیم پارامتریک و بازیابی (Retrieval) دستبهدست میشوند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای وزنباز اشاره کردیم، صنعت تا امروز largely نادیده گرفته است که این دو زیرساخت احتمالاً در جهتهای متضاد شکست میخورند و همراستاسازی (Alignment) از طریق RLHF این تعادل را پیچیدهتر میکند.
پژوهشگران با مقایسه gamma-LoRA (آداپتورهای کاربر-محور) در برابر بازیابی متراکم Top-K مدل BGE-large، با استفاده از مجموعهدادههای مصنوعی ۵۰ کاربر و ابزار LaMP-3 به نتایج تکاندهندهای رسیدند:
- gamma-LoRA در بازتولید سبک رفتاری و لحن کاربر تسلط کامل دارد.
- تولید بازیابیافزا (RAG) در مدیریت «فقدان واقعیت» (خودداری از پاسخ هنگام نبود داده) بهمراتب قابلاعتمادتر است.
- تحلیلهای علی نشان میدهد لایههای توجه ۲۱ تا ۳۵، هر دو اثر را مدیریت میکنند؛ صفر کردن وزنهای LoRA در این لایهها، نرخ مثبت واقعی (TPR) را در تشخیص فقدان دادهها ۳۳ درصد افزایش داد، هرچند دقت در بازاریابی واقعیتهای موجود را ۲۰ درصد کاهش داد.
به نقل از این گزارش، لایه «مالیات همراستاسازی» در مدل Llama-3.1-8B-Instruct نیز مشاهده شده است. در این مدل، مزیت رفتاری حافظه پارامتریک فروپاشیده و ناتوانی در کالیبره کردن واقعیتهای غایب در مقایسه با روشهای استردادی تشدید شده است. همچنین، تیم تحقیق دریافت که انتخاب بهینه زیرساخت حافظه، در واقع یک مسئله «طبقهبندی سؤال» است؛ جایی که یک مدل DistilBERT با ۱۱۰ میلیون پارامتر، از تمام مسیریابهای مبتنی بر Logit بهتر عمل کرد.
این یافتهها پیشفرضهای فعلی را تغییر میدهد: هدف نباید یافتن یک زیرساخت برنده، بلکه طراحی سیستمی ترکیبی است که پرسوجوها را بر اساس «سبکمحور» یا «واقعیتمحور» بودن مسیریابی کند.
گام بعدی شما
- پشتههای شخصیسازی خود را بهجای یک نمره دقت کلی، بر اساس سه محور رفتاری، حضور و فقدان واقعیت ارزیابی کنید.
- برای کاهش توهمات در عاملهای شخصی، از یک مدل کوچک مانند DistilBERT به عنوان مسیریاب (Router) بین LoRA و RAG استفاده کنید.
- بررسی کنید آیا میتوان «کالیبراسیون فقدان» را بدون تخریب سبک رفتاری، در حافظه پارامتریک آموزش داد.
اما چالش بعدی، هزینهی محاسباتی این مسیریابیهای ترکیبی در مقیاس بالا است؛ جزئیاتی که در گزارشهای آتی بررسی خواهیم کرد.



گفتگو