اگر تصور میکنید عدالت در مدلهای هوش مصنوعی چندوظیفهای را صرفاً با مقایسه خروجیها اندازهگیری کردهاید، احتمالاً با یک توهم ریاضی روبهرو هستید. باید بدانید که بسیاری از مدلها نهبهدلیل کاهش سوگیری، بلکه صرفاً با تغییر مقیاسهای داخلی نمایش دادهها، «عادل» به نظر میرسند.
به نقل از مقالهای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، این پدیده «تداخل آستانه» (Threshold Confounding) نام دارد. در یادگیری چندوظیفهای (Multi-Task Learning)، مدلهای مختلف مقیاسهای داخلی متفاوتی تولید میکنند؛ بنابراین یک فاصله «کوچک» در نمایش یک مدل، ممکن است در مدل دیگر یک فاصله «بزرگ» باشد. همانطور که در تحلیلهای پیشین ما دربارهی سوگیریهای سیستماتیک در مدلهای بنیادی اشاره کردیم، این عدم توازن باعث میشود مقایسهی عدالت بین دو مدل عملاً غیرممکن شود، زیرا هر کدام با آستانههای معنایی متفاوتی حسابرسی میشوند.
چارچوب ReLiF برای حل این معضل، حسابرسی زمان ارزیابی را از تنظیمات زمان آموزش تفکیک میکند. طبق مستندات این پژوهش، اجزای فنی این سیستم عبارتاند از:
- حسابرسی دلتای ثابت (Fixed-δ Auditing): استفاده از یک تلورانس مرجع مشترک برای تمامی مدلها جهت تضمین پروتکل ارزیابی یکسان.
- کنترلکننده بازخورد نرخ تخلف (Violation-Rate Feedback Controller): فعال نگه داشتن محدودیتهای عدالت در طول آموزش تصادفی برای جلوگیری از غلبهی کاربرد (Utility) بر عدالت.
- تنظیم رگولاریزاسیون هوبر (Huberized Regularization): استفاده از یک جایگزین آموزشی نرم برای مدیریت پایداری مدل در کنار محدودیتهای حاشیه مثبت.
بر اساس آزمایشهای صورت گرفته روی مجموعه داده NYUv2 با استفاده از استخوانبندی ResNet50، مدل ReLiF توانست سوگیریهای همراستا را بهشدت کاهش دهد بدون اینکه عملکرد کلی مدل افت کند. در بنچمارکهای سری زمانی کلینیکی نیز مشخص شد که روشهای رایج «توازن وظایف» (Task-balancing) در واقع تضادهای واقعی میان عدالت و کاربرد را پنهان میکردند.
این تحول، میدان را از «عدالت نسبی» به «عدالت مطلق» منتقل میکند. برای متخصصان، این بدان معناست که بسیاری از بنچمارکهای قبلی که مدعی عدالت در یادگیری چندوظیفهای بودند، در صورت تکیه بر آستانههای وابسته به متد، اکنون نامعتبر هستند.
گام بعدی شما
- ادعاهای مربوط به عدالت در مدلهای چندوظیفهای را با استفاده از روش حسابرسی دلتای ثابت بازبینی کنید.
- در پیادهسازیهای خود، کنترلکننده بازخورد را برای مدیریت محدودیتهای متضاد در بهینهسازی چندهدفه به کار ببرید.
- شکاف بین معیارهای ریاضی عدالت و نتایج عملیاتی را در دادههای حساس (مثل دادههای پزشکی) بررسی کنید.
اما این چالش تنها بخشی از معماری پیچیدهتر مدلهای چندوظیفهای است؛ برای درک عمیقتر توازن بین وظایف، به تحلیل ما دربارهی میانگینگیری وزن پویا مراجعه کنید.



گفتگو