چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

اگر تصور می‌کنید تغییر شخصیت یک مدل تنها با تغییر چند کلمه در پرامپت، بدون هیچ هزینه‌ای روی دقت خروجی اثر می‌گذارد، باید در این باور تجدیدنظر کنید. داده‌ها نشان می‌دهند که تبدیل یک مدل به یک «کاراکتر» خاص، توازن خطرناکی میان سبک بیان و دقت فنی ایجاد می‌کند.

به نقل از مقاله‌ای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، القای شخصیت (Persona Induction) در مدل‌های زبانی چندوجهی (Multimodal Large Language Models - MLLMs) منجر به یک تضاد عملکردی می‌شود: بهبود در توصیف کلی تصاویر، اما تخریب در استدلال‌های بصری دقیق. همان‌طور که در تحلیل قبلی ما درباره‌ی Uni-E و چالش‌های جابه‌جایی توزیع (Distribution Shift) در مدل‌های زبانی اشاره کردیم، کنترل رفتار مدل‌ها در محیط‌های چندوجهی پیچیدگی‌های پیش‌بینی‌نشده‌ای دارد.

طبق گزارش پژوهشگران، این تیم یک چارچوب ارزیابی سیستماتیک برای بررسی القای تک‌شخصیتی، چندشخصیتی و جابه‌جایی میان شخصیت‌ها طراحی کردند. یافته‌های فنی این مطالعه شامل موارد زیر است:

القای شخصیت به‌طور مستمر باعث بهبود عملکرد مدل در توصیف تصاویر (Image Captioning) می‌شود.
وظایف استدلالی دقیق، به‌ویژه پاسخ‌دهی به پرسش‌های بصری (Visual Question Answering - VQA)، تحت همین شرایط دچار افت شدید دقت می‌شوند.
در جابه‌جایی‌های پویا، «اثرات باقی‌مانده» (Residual Effects) مشاهده شد؛ به این معنا که رفتار فعلی مدل، تحت تأثیر همزمان محدودیت‌های شخصیت قبلی و فعلی است.
متدهای استاندارد القای شخصیت مبتنی بر پرامپت، قابلیت انتقال محدودی از محیط‌های متن‌محض به محیط‌های چندوجهی دارند.

این نتایج، این فرض را که مهندسی پرامپت برای افزایش تطبیق‌پذیری مدل یک روش «بدون هزینه» است، به چالش می‌کشد. برای جامعه فنی، این موضوع نشان‌دهنده یک تنش بنیادی میان همراستاسازی سبک (Stylistic Alignment) و دقت عملکردی در فضاهای چندوجهی است. مشاهده «اثرات باقی‌مانده» حاکی از نوعی اینرسی رفتاری است که می‌تواند استقرار عامل‌های چندوجهی در محیط‌های بلادرنگ را بسیار دشوار کند.

گام بعدی شما

توسعه‌دهندگان MLLM باید با انتشار کد این مقاله، اثرات باقی‌مانده را در خط لوله‌های (Pipelines) استنتاج خود بنچ‌مارک کنند.
در طراحی سیستم‌های عامل‌محور، از تکیه مطلق بر پرامپت برای تغییر شخصیت پرهیز کرده و اثر آن بر دقت VQA را بسنجید.
بررسی کنید که آیا جداسازی استایل از استدلال از طریق تنظیم دقیق (Fine-tuning) تخصصی ممکن است یا خیر.

اما این تنها بخشی از چالش است؛ تأثیر این اینرسی رفتاری بر حافظه بلندمدت مدل‌ها در گزارش بعدی ما بررسی خواهد شد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

القای شخصیت به‌طور مستمر باعث بهبود عملکرد مدل در توصیف تصاویر (Image Captioning) می‌شود.
وظایف استدلالی دقیق، به‌ویژه پاسخ‌دهی به پرسش‌های بصری (Visual Question Answering - VQA)، تحت همین شرایط دچار افت شدید دقت می‌شوند.
در جابه‌جایی‌های پویا، «اثرات باقی‌مانده» (Residual Effects) مشاهده شد؛ به این معنا که رفتار فعلی مدل، تحت تأثیر همزمان محدودیت‌های شخصیت قبلی و فعلی است.
متدهای استاندارد القای شخصیت مبتنی بر پرامپت، قابلیت انتقال محدودی از محیط‌های متن‌محض به محیط‌های چندوجهی دارند.

گام بعدی شما

توسعه‌دهندگان MLLM باید با انتشار کد این مقاله، اثرات باقی‌مانده را در خط لوله‌های (Pipelines) استنتاج خود بنچ‌مارک کنند.
در طراحی سیستم‌های عامل‌محور، از تکیه مطلق بر پرامپت برای تغییر شخصیت پرهیز کرده و اثر آن بر دقت VQA را بسنجید.
بررسی کنید که آیا جداسازی استایل از استدلال از طریق تنظیم دقیق (Fine-tuning) تخصصی ممکن است یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران