پژوهشگران تلاش کردند ویژگیهای رفتاری را از طریق یک خط لوله تقطیر پیچیده به مدلهای زبانی کوچک منتقل کنند، اما این کوشش در نهایت به نتیجهای قطعیاً منفی منجر شد. این مطالعه بر سه ویژگی رفتاری کلیدی تمرکز داشت: تأیید درونی، پذیرش عدم قطعیت، و ادغام بازخورد. مدلهای مورد آزمایش از ۰.۶ تا ۲.۳ میلیارد پارامتر مؤثر داشتند.
یک پیشنویس داخلی اولیه، سودمندی چشمگیری را گزارش داد: افزایش ۳۳.۹ درصدی در MCAS و ۱۵.۳ درصدی در HumanEval برای مدل دانشآموز Qwen3-0.6B. با این حال، یک بررسی دقیق فوری هر دو عدد را رد کرد. بهبود HumanEval یک artifact ناشی از截断 در n_predict=512 بود که در ارزیابی استاندارد n_predict=1024 به کسری ۸.۰ درصدی تبدیل شد. سودهای MCAS نیز تحت امتیازدهی دقیق و مقایسهپذیر از بین رفتند.
این falsification سه مسیر آزمایشی بعدی را آغاز کرد. اولین مسیر، تنظیم دقیق تحت نظارت و DPO LoRA را بر سه خانواده مدل و دو حوزه اعمال کرد. دومین مسیر، مداخلات زمان استنتاج بر attention heads targeting o_proj را بررسی کرد. سومین مسیر، یک sidecar بدون آموزش با پایه یخزده را آزمایش کرد که hidden state نشانه نهایی را میخواند. در تمامی رویکردها، پژوهشگران هیچ عملگری نیافتند که disposition اندازهگیریشده توسط داور را بدون آسیب به کیفیت محتوا یا فروپاشی به تقلید سبکی بهبود دهد.
{{img:0}}
این شکست در میان پنج مدل سازگار بود: Qwen3-0.6B، Qwen3-1.7B، Qwen3.5-0.8B، Gemma 4 E2B، و SmolLM2-1.7B-Instruct. اعتبارسنجی متقاطع درون توزیعی به AUC=0.683 دست یافت، اما روی پرامپتهای تازه به AUC=0.516 در سطح شانس سقوط کرد که نشان میدهد مدل الگوهای سطحی را حفظ کرده بود نه ویژگیهای واقعی را.
بهعنوان یک یافته مستقل، Gemma 4 E2B عدم ارتباط تقریباً کامل اطمینان-صحت را در حوزه Chef نشان داد و با اطمینان ۹۱٪ اصرار داشت صرفنظر از اینکه پاسخهایش واقعاً درست بودند یا نه.
این مطالعه یک نتیجه منفی سهوجهی با توضیح مکانیزمی، یک طبقهبندی از دو حالت شکست برای پروبهای خطی h_last، و یک خط لوله falsification صادقانه که مثبتهای کاذب را به منفیهای قابل انتشار تبدیل میکند، ارائه میدهد. این کار بر اهمیت sanity-checking دقیق قبل از گزارش اعداد چشمگیر تأکید میکند و نشان میدهد که آموزش disposition رفتاری در مدلهای کوچک همچنان یک چالش حلنشده باقی مانده است.

گفتگو