استخراج ویژگی‌های رفتاری در مدل‌های زبانی کوچک با شکست مواجه شد

پژوهشگران تلاش کردند ویژگی‌های رفتاری را از طریق یک خط لوله تقطیر پیچیده به مدل‌های زبانی کوچک منتقل کنند، اما این کوشش در نهایت به نتیجه‌ای قطعیاً منفی منجر شد. این مطالعه بر سه ویژگی رفتاری کلیدی تمرکز داشت: تأیید درونی، پذیرش عدم قطعیت، و ادغام بازخورد. مدل‌های مورد آزمایش از ۰.۶ تا ۲.۳ میلیارد پارامتر مؤثر داشتند.

یک پیش‌نویس داخلی اولیه، سودمندی چشمگیری را گزارش داد: افزایش ۳۳.۹ درصدی در MCAS و ۱۵.۳ درصدی در HumanEval برای مدل دانش‌آموز Qwen3-0.6B. با این حال، یک بررسی دقیق فوری هر دو عدد را رد کرد. بهبود HumanEval یک artifact ناشی از截断 در n_predict=512 بود که در ارزیابی استاندارد n_predict=1024 به کسری ۸.۰ درصدی تبدیل شد. سودهای MCAS نیز تحت امتیازدهی دقیق و مقایسه‌پذیر از بین رفتند.

این falsification سه مسیر آزمایشی بعدی را آغاز کرد. اولین مسیر، تنظیم دقیق تحت نظارت و DPO LoRA را بر سه خانواده مدل و دو حوزه اعمال کرد. دومین مسیر، مداخلات زمان استنتاج بر attention heads targeting o_proj را بررسی کرد. سومین مسیر، یک sidecar بدون آموزش با پایه یخ‌زده را آزمایش کرد که hidden state نشانه نهایی را می‌خواند. در تمامی رویکردها، پژوهشگران هیچ عملگری نیافتند که disposition اندازه‌گیری‌شده توسط داور را بدون آسیب به کیفیت محتوا یا فروپاشی به تقلید سبکی بهبود دهد.

این شکست در میان پنج مدل سازگار بود: Qwen3-0.6B، Qwen3-1.7B، Qwen3.5-0.8B، Gemma 4 E2B، و SmolLM2-1.7B-Instruct. اعتبارسنجی متقاطع درون توزیعی به AUC=0.683 دست یافت، اما روی پرامپت‌های تازه به AUC=0.516 در سطح شانس سقوط کرد که نشان می‌دهد مدل الگوهای سطحی را حفظ کرده بود نه ویژگی‌های واقعی را.

به‌عنوان یک یافته مستقل، Gemma 4 E2B عدم ارتباط تقریباً کامل اطمینان-صحت را در حوزه Chef نشان داد و با اطمینان ۹۱٪ اصرار داشت صرف‌نظر از اینکه پاسخ‌هایش واقعاً درست بودند یا نه.

این مطالعه یک نتیجه منفی سه‌وجهی با توضیح مکانیزمی، یک طبقه‌بندی از دو حالت شکست برای پروب‌های خطی h_last، و یک خط لوله falsification صادقانه که مثبت‌های کاذب را به منفی‌های قابل انتشار تبدیل می‌کند، ارائه می‌دهد. این کار بر اهمیت sanity-checking دقیق قبل از گزارش اعداد چشمگیر تأکید می‌کند و نشان می‌دهد که آموزش disposition رفتاری در مدل‌های کوچک همچنان یک چالش حل‌نشده باقی مانده است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

استخراج ویژگی‌های رفتاری در مدل‌های زبانی کوچک با شکست مواجه شد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

استخراج ویژگی‌های رفتاری در مدل‌های زبانی کوچک با شکست مواجه شد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

استخراج ویژگی‌های رفتاری در مدل‌های زبانی کوچک با شکست مواجه شد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

استخراج ویژگی‌های رفتاری در مدل‌های زبانی کوچک با شکست مواجه شد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران