مدلهای زبانی شما را با دستور زبانی بینقص فریب میدهند. اگر تصور میکنید فصاحت یک مدل نشانه درک درست اوست، در اشتباهید و احتمالاً در حال پذیرش پاسخهای غلط اما متقاعدکننده هستید.
در ۷ مه ۲۰۲۶، پژوهشگران چارچوب RLearner-LLM را معرفی کردند که با استفاده از بهینهسازی مستقیم ترجیحات ترکیبی (Hybrid-DPO)، شکاف میان فصاحت و منطق را میپوشاند. به نقل از گزارش منتشر شده در arxiv.org، صنعت هوش مصنوعی با پدیدهای به نام سوگیری پرحرفی (Verbosity Bias) دستوپنجه نرم میکند؛ وضعیتی که در آن مدلها به جای درستی منطقی، برای «پرگو بودن» و «با اعتمادبهنفس به نظر رسیدن» پاداش میگیرند.
طبق اعلام پژوهشگران، سیگنالهای ترجیحی استاندارد در تنظیم دقیق نظارتی (Supervised Fine-Tuning - SFT) معمولاً طول متن را بر منطق ترجیح میدهند. این امر باعث میشود مدلها در آزمونهای استنتاج زبان طبیعی (Natural Language Inference - NLI) شکست بخورند، حتی اگر متن آنها بسیار روان باشد.
برای حل این مشکل، Hybrid-DPO یک خط لوله ترجیحی خودکار را اجرا میکند که سیگنالهای NLI مدل DeBERTa-v3 را با امتیازات یک مدل تاییدکننده ترکیب میکند. این رویکرد نیاز به حاشیه نویسی انسانی را حذف کرده و «مالیات همراستاسازی» را کاهش میدهد.
نتایج در حوزههای زیستشناسی، پزشکی و حقوق خیرهکننده است:
- RLearner-LLM بهبود ۶ برابری در NLI نسبت به مدلهای SFT ایجاد کرد.
- در مدل Gemma 4 E4B-it، دقت NLI در ۴ حوزه از ۵ حوزه، بین ۱۱.۹٪ تا ۲.۴ برابر افزایش یافت.
- مدل Qwen3-8B در ۹۵٪ مقایسههای دوطرفه، مدل SFT خود را شکست داد.
همانطور که در تحلیل قبلی ما دربارهی پیروزی RaguTeam در SemEval-2026 اشاره کردیم، ارکستراسیون داوران میتواند شکستهای استدلالی را پنهان کند. این مطالعه نیز افشای تکاندهندهای داشت: وقتی از GPT-4o-mini به عنوان داور استفاده شد، این مدل در ۶۹٪ موارد پاسخهای پرحرف SFT را به پاسخهای کوتاه و منطقی DPO ترجیح داد.
پژوهشگران استدلال میکنند که باید از «مدل به عنوان داور» فاصله بگیریم و به سراغ متریکهای منطقمحور مانند NLI و نسبت پوشش پاسخ (Answer Coverage Ratio - ACR) برویم.
اما این تنها بخشی از معماست؛ تأثیر این رویکرد بر کاهش هزینههای استنتاج در مدلهای کوچک را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- جایگزینی معیارهای «مدل به عنوان داور» با متریکهای NLI برای ارزیابی مدلهای تخصصی.
- بررسی نسبت پوشش پاسخ (ACR) برای شناسایی توهمات پنهان در پاسخهای بلند.
- آزمایش Hybrid-DPO بر روی مدلهای کوچکتر برای دستیابی به دقت مدلهای غولپیکر.
گفتگو