چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

باید بدانید که ترکیب خروجی‌های انسانی و ماشین لزوماً به نتیجه‌ای دقیق‌تر ختم نمی‌شود؛ در واقع، این کار ممکن است دقیقاً همان تخصصی را که سعی در بهره‌برداری از آن دارید، تخریب کند.

اگر هنوز تصور می‌کنید میانگین‌گیری از پاسخ‌های یک متخصص و یک مدل زبانی، راهی مطمئن برای کاهش خطا است، باید با واقعیت‌های ریاضی این فرآیند رو‌به‌رو شوید. طبق پژوهشی که در ۱۰ ژوئن ۲۰۲۶ توسط اریک نالیسنیک (Eric Nalisnick) منتشر شد، روش‌های استاندارد ادغام خروجی‌ها در حفظ قابلیت اطمینان آماری انسان شکست می‌خورند.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، چالش اصلی اکنون فراتر از قدرت تک‌مدل‌هاست و به «سازوکار همکاری» می‌رسد. در حالی که صنعت در حال گذار از نگاه «هوش مصنوعی به عنوان ابزار» به «هوش مصنوعی به عنوان هم‌تیمی» است، نحوه ادغام این دو عامل (Agent)، گلوگاه اصلی تبدیل شده است.

بر اساس مستندات این مقاله در arXiv، دو چارچوب اصلی برای همکاری بررسی شده‌اند:

ترکیب (Combination): ادغام پیش‌بینی‌های انسان و مدل در یک خروجی واحد.
تفویض (Delegation): استفاده از یک مدل ردکننده (Rejector Meta-model) برای تصمیم‌گیری درباره اینکه پیش‌بینی نهایی باید توسط انسان باشد یا مدل.

به نقل از این مطالعه، روش‌های ترکیبی معمولاً کالیبراسیون (Calibration) انسانی را تخریب می‌کنند. در مقابل، روش تفویض کالیبراسیون پیش‌بین را حفظ می‌کند، اما تمام بار دقت را بر دوش مدل ردکننده می‌اندازد. نالیسنیک استدلال می‌کند که وقتی انسان از اطلاعاتی استفاده می‌کند که مدل قادر به مشاهده‌ی آن‌ها نیست، دستیابی به یک مدل ردکننده دقیق، «دست‌نیافتنی» می‌شود.

برای جامعه‌ی یادگیری ماشین (ML)، این یافته‌ها به این معناست که «میانگین‌گیری» از بینش‌های انسانی و ماشینی در سیستم‌های کالیبره شده، از نظر ریاضی زیربهینه است. این «شکاف اطلاعاتی» صرفاً یک مانع عملی نیست، بلکه یک حد نظری برای هر مدل متا است که می‌خواهد وظایف را تفویض کند. این موضوع ما را مجبور می‌کند تا معماری سیستم‌های «انسان-در-حلقه» (Human-in-the-loop) را از ادغام‌های ساده به سمت لایه‌های شفاف‌ترِ اشتراک اطلاعات تغییر دهیم.

گام بعدی شما

بررسی معماری‌های «ردکننده» که به شکاف اطلاعاتی حساس هستند.
ارزیابی مجدد سیستم‌های ترکیبی در محیط‌های عملیاتی با تمرکز بر نرخ کالیبراسیون.
رصد بنچمارک‌های جدید مدل‌های متا در حوزه‌های تخصصی پزشکی و حقوقی.

اما داستان سخت‌افزاری این تحول حتی پیچیده‌تر است؛ برای درک چالش‌های استقرار این مدل‌ها، به تحلیل ما درباره‌ی محدودیت‌های حافظه GPU مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات این مقاله در arXiv، دو چارچوب اصلی برای همکاری بررسی شده‌اند:

ترکیب (Combination): ادغام پیش‌بینی‌های انسان و مدل در یک خروجی واحد.
تفویض (Delegation): استفاده از یک مدل ردکننده (Rejector Meta-model) برای تصمیم‌گیری درباره اینکه پیش‌بینی نهایی باید توسط انسان باشد یا مدل.

گام بعدی شما

بررسی معماری‌های «ردکننده» که به شکاف اطلاعاتی حساس هستند.
ارزیابی مجدد سیستم‌های ترکیبی در محیط‌های عملیاتی با تمرکز بر نرخ کالیبراسیون.
رصد بنچمارک‌های جدید مدل‌های متا در حوزه‌های تخصصی پزشکی و حقوقی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین‌گیری از تحلیل‌های انسانی و هوش مصنوعی یک اشتباه ریاضی است؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران