اگر مدلهای بینایی-زبانی بزرگ (Large Vision-Language Models - VLMs) نتوانند مرزهای دانش خود را بشناسند، هرگز نمیتوان آنها را در محیطهای حساس به کار گرفت. شما باید بدانید که مدل در حال حدس زدن است یا واقعاً حقیقتی را بیان میکند، پیش از آنکه به خروجی آن اعتماد کنید.
به نقل از مقالهای که در ۲۹ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب جدیدی به نام Visual-Idk توانسته است نرخ صداقت (Truthful Rate) مدلها را از ۵۷.۹٪ به ۶۷.۳٪ برساند. این یعنی مدلها حالا یاد گرفتهاند در مواجهه با پرسشهایی که خارج از دایرهی دانش پارامتریک آنهاست، صادقانه بگویند: «نمیدانم».
این سیستم از طریق یک فرآیند دو مرحلهای عمل میکند:
- کاوش سازگاری (Consistency Probing): شناسایی نقاطی که دانش داخلی مدل در آنها ناپایدار است تا این نواحی به عنوان «ناشناخته» علامتگذاری شوند.
- همراستاسازی (Alignment): استفاده از تنظیم دقیق (Fine-tuning) نظارتشده و سپس بهینهسازی با روشهای DPO (Direct Preference Optimization) و ORPO برای تثبیت مرزهای پاسخدهی.
در پوشش پیشین ما از امنیت مدلهای چندوجهی، دیدیم که توهم (Hallucination) بصری میتواند منجر به تصمیمات فاجعهبار شود؛ Visual-Idk دقیقاً برای حل همین بحران طراحی شده است.
این رویکرد بهویژه در حوزههای تخصصی مانند پزشکی، جایی که دادههای آموزشی برای موارد نادر (Long-tail) کم است، حیاتی است. بر اساس مستندات این پژوهش، مدلها دیگر صرفاً سبک «رد کردن» پاسخ را تقلید نمیکنند، بلکه واقعاً محدودیتهای شناختی خود را تشخیص میدهند. این تحول، هوش مصنوعی زاینده (Generative AI) را از یک ماشین حدسزن به یک دستیار محتاط تبدیل میکند.
این تنها آغاز ماجراست؛ اثر موجگونهی این صادقتر شدن مدلها بر آیندهی ابزارهای تشخیص پزشکی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقالهی Visual-Idk در arxiv برای درک عمیقتر از متدولوژی DPO.
- تست مدلهای VLM فعلی با پرسشهای «طرحوارهای» برای شناسایی نقاط کور آنها.
- دنبال کردن پیشرفتهای ORPO در بهینهسازی ترجیحات مدل.




گفتگو