مدلهای هوش مصنوعی در مواجهه با دادههای نادر، دچار کوربینی سیستماتیک میشوند. اگر سیستم شما در شناسایی موارد استثنایی شکست میخورد، دلیل آن احتمالاً سوگیری به سمت کلاسهای اکثریت در دادههای آموزشی است.
این شکست در سیستمهای چندوجهی (Multimodal) که باید جریانهای دادهای متنوع را ترکیب کنند، شدیدتر است. طبق تحلیل فنی منتشر شده در arXiv در ۱۲ مه ۲۰۲۶، مشکل اصلی در ناتوانی تکنیکهای ادغام استاندارد در بهرهبرداری از اطلاعات مکمل میان منابع ناهمگون است. همانطور که در تحلیلهای پیشین ما دربارهی سوگیریهای مدلهای بنیادی اشاره کردیم، مدلها تمایل دارند سیگنالهای حیاتی کلاسهای اقلیت را در نویز دادههای اکثریت گم کنند.
چارچوب پیشنهادی، معماریهای چند-متخصص را به محیطهای چندوجهی گسترش میدهد. این سیستم از شبکههای اختصاصی برای تخمین میزان اطلاعاتی بودن هر ورودی استفاده میکند و با بهکارگیری وزنهای هدایتشده با اطمینان، فرآیند ادغام را بهصورت پویا تنظیم میکند. ویژگیهای کلیدی این رویکرد عبارتند از:
- بازنمایی یکپارچه از دادههای ناهمگون (مانند ترکیب تصاویر و دادههای جدولی).
- وزندهی پویا برای اطمینان از اینکه وجههای اطلاعاتیتر، بر تصمیم نهایی اثر بیشتری بگذارند.
- روالهای تخصصی آموزش و آزمایش که بهطور ویژه برای توزیعهای نامتوازن طراحی شدهاند.
به باور نویسندگان این پژوهش، این رویکرد پیشفرضهای میدان را از «ادغام استاتیک دادهها» به یک فرآیند «پویا و آگاه از سطح اطمینان» تغییر میدهد. با اولویتبندی قابلاعتمادترین وجه برای هر نمونه خاص، مدل از غلبهی سوگیری کلاس اکثریت بر سیگنالهای ظریف دادههای نادر جلوگیری میکند. این تغییر، استحکام مدل را در سناریوهای واقعی که دادهها بهندرت بهطور یکنواخت توزیع شدهاند، بهشدت افزایش میدهد.
گام بعدی شما
- بررسی عملکرد این چارچوب بر روی مجموعهدادههای صنعتی با انحراف بالا، مانند تشخیص بیماریهای نادر یا تحلیل تقلبات مالی.
- ارزیابی قابلیت مقیاسپذیری این وزندهی پویا در جریانهای دادهای حجیم ویدئویی و صوتی.
اما چالش بعدی، انتقال این منطق به دادههای حجیم ویدئویی است — به بررسی ما دربارهی مدلهای World Model مراجعه کنید.
گفتگو