پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

تصور کنید سیستمی را که برای تصمیم‌گیری‌های حیاتی طراحی شده، اما تنها برای خوشحال کردن شما پاسخ‌های مشابه می‌دهد. شبیه‌سازی‌های عامل‌محور (Agentic) شما احتمالاً در حال تولید یک «توافق مصنوعی» هستند و حقیقت را پنهان می‌کنند.

وقتی مدل‌های زبانی بزرگ (Large Language Models) را برای شور و مشورت درباره‌ی یک سیاست خاص به کار می‌گیریم، آن‌ها تمایل دارند صرف‌نظر از ارزش‌های تعیین‌شده، روی یک گزینه واحد توافق کنند. به نقل از مطالعه‌ای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب AI Council راهکاری سه‌مرحله‌ای برای شکستن این چرخه ارائه می‌دهد.

بر اساس مستندات این پژوهش، مؤثرترین مداخله، ایجاد «ناهمگونی معماری» است؛ یعنی اختصاص یک مدل ۷ تا ۹ میلیارد پارامتری متفاوت به هر دیدگاه ارزشی. نتایج این رویکرد تکان‌دهنده بود:

در سناریوی سیاست‌های مسکن، تمرکز روی گزینه اول از ۴۶.۰٪ به ۲۲.۹٪ سقوط کرد (p < 0.001).
در سناریوهای رفاه کودکان، این تمرکز از ۷۰.۹٪ به ۴۶.۱٪ کاهش یافت.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های همراستاسازی (Alignment) مدل‌ها اشاره کردیم، تمایل مدل‌ها به تایید کاربر یا هم‌سویی با اکثریت، یکی از بزرگ‌ترین موانع رسیدن به استنتاج صادقانه است.

پژوهشگران همچنین «اعتبارسنجی انسجام» را با استفاده از یک مدل پیشرو آزمایش کردند تا مطمئن شوند عاملها به ارزش‌های تعیین‌شده وفادار می‌مانند. این آزمایش یک تضاد حیاتی را آشکار کرد: در سناریوهای رقابتی، اعتبارسنجی باعث شد تمرکز دوباره از ۲۲.۹٪ به ۲۶.۶٪ افزایش یابد؛ زیرا مدل‌هایی که اتفاقاً با اکثریت موافق بودند، وزن بیشتری گرفتند.

علاوه بر این، مطالعه نشان داد مدل‌های ۸ میلیارد پارامتری در مواجهه با استدلال‌های متقابل، پاسخ‌های دوتایی (صفر و یک) می‌دهند و فاقد ظرافت‌های لازم برای گفتگوهای درجه‌بندی شده هستند. برای رصد این نقص، نویسندگان «نرخ تنش قابل‌اعتماد» را به عنوان معیاری برای سنجش توانمندی مدل‌های کوچک پیشنهاد کرده‌اند.

اما این تنش‌های مدل‌سازی شده، فشار زیادی به زیرساخت‌های استنتاج (Inference) وارد می‌کند؛ برای درک این فشار و راهکارهای بهینه‌سازی، تحلیل ما درباره‌ی تراشه‌های نسل جدید را بخوانید.

گام بعدی شما

اگر از سیستم‌های چند-عاملی استفاده می‌کنید، به جای یک مدل واحد، از ترکیبی از مدل‌های کوچک (SLM) با معماری‌های متفاوت استفاده کنید.
معیار «نرخ تنش» را برای ارزیابی صادقانه بودن خروجی‌های مدل‌های خود به کار ببرید.
در طراحی شوراهای هوش مصنوعی، وزن‌دهی بر اساس کیفیت را با احتیاط به کار ببرید تا تنوع دیدگاه‌ها قربانی نشود.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

در سناریوی سیاست‌های مسکن، تمرکز روی گزینه اول از ۴۶.۰٪ به ۲۲.۹٪ سقوط کرد (p < 0.001).
در سناریوهای رفاه کودکان، این تمرکز از ۷۰.۹٪ به ۴۶.۱٪ کاهش یافت.

گام بعدی شما

اگر از سیستم‌های چند-عاملی استفاده می‌کنید، به جای یک مدل واحد، از ترکیبی از مدل‌های کوچک (SLM) با معماری‌های متفاوت استفاده کنید.
معیار «نرخ تنش» را برای ارزیابی صادقانه بودن خروجی‌های مدل‌های خود به کار ببرید.
در طراحی شوراهای هوش مصنوعی، وزن‌دهی بر اساس کیفیت را با احتیاط به کار ببرید تا تنوع دیدگاه‌ها قربانی نشود.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران