اگر برای تصمیمات حیاتی زندگیتان تنها به یک مدل هوش مصنوعی تکیه میکنید، احتمالاً با پاسخهایی مواجه میشوید که در ظاهر متقاعدکننده اما در باطن غلط هستند. حقیقت این است که اعتماد مطلق به یک مدل، ریسک پذیرش پاسخهای سطحی و «تنبلی» هوش مصنوعی را به شدت افزایش میدهد. این چالش با مفهوم بیان عدم قطعیت گره خورده است که کلیدی برای دستیابی به نتایجی قابلاتکا در مدلهای زبانی محسوب میشود.
طبق گزارش منتشر شده در ۵ جولای ۲۰۲۶، آزمایشی روی یک پلتفرم مناظره تخصصی نشان داد که وقتی مدلهای Gemini، DeepSeek و GPT مجبور میشوند خروجیهای یکدیگر را به چالش بکشند، دقت و سختگیری آنها به شکل چشمگیری بالا میرود. این رویکرد پاسخی است به مشکلی رو به رشد: تمایل کاربران به اعتماد کورکورانه به یک AI برای تصمیمات حساس. امروزه مردم از هوش مصنوعی برای مصرف دارو، اتخاذ تصمیمات شغلی و حتی تصمیمگیری درباره روابط شخصی استفاده میکنند. وقتی یک مدل زبانی بزرگ (LLM) در پاسخ به یک سؤال استدلالی ساده که هر انسانی فوراً آن را میفهمد شکست میخورد، این موضوع نگرانکننده است. خطر اصلی این است که مدل ممکن است بهجای ارائه «بهترین» پاسخ، «تنبلترین» پاسخ ممکن را ارائه دهد.
در ادامه پوششهای قبلی ما درباره اینکه چگونه DIMBA II با تکرار میجنگد، این آزمایش تمرکز را به سمت «قابلیت اطمینان منطقی» تغییر میدهد. برای یک کاربر عادی، اعتماد به تنها یک مدل زبانی بزرگ (LLM) — شبیه کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — مثل این است که برای یک ویژگی یا پروژه حیاتی، فقط با یک مهندس مشورت کنید و نظر دوم را نگیرید. همانطور که یک شرکت پیش از عرضه نهایی یک قابلیت، بازخوردهای چندین مهندس ارشد را میگیرد، کاربران نیز باید به دنبال اجماع بین مدلها باشند.
تست استدلالی «کارواش»
بر اساس مستندات این آزمایش، مرکز بحث یک معمای ویروسی بود: «کارواش ۱۰۰ متر فاصله دارد؛ پیاده بروم یا رانندگی کنم؟»
- Gemini در ابتدا شکست خورد و با تنبلی نتیجه گرفت که کاربر باید صرفاً پیاده برود؛ پاسخی خندهدار اما منطقاً غلط.
- DeepSeek با مخالفت شدید، این خطا را اصلاح کرد و stated کرد که شدیداً مخالف است. این مدل اشاره کرد که استدلال قبلی، مسئله را صرفاً یک بهینهسازی حملونقل دیده و هدف صریح سفر (که شستشوی ماشین است) را نادیده گرفته است.
- DeepSeek همچنین شناسایی کرد که این مورد، «تست کارواش» است؛ بنچمارکی (محک) که بهطور سیستماتیک روی بیش از ۵۳ مدل پیشرو هوش مصنوعی اجرا شده است.
- GPT در نقش داور عمل کرد و در حالی که با هر دو موافق بود، بیشتر به منطق DeepSeek تمایل داشت.

دور دوم: عمیقتر شدن تضاد
در مرحله دوم، نقشها برای تضمین عدالت عوض شدند تا مدلها کمتر تنبل باشند و بیشتر به چالش کشیده شوند. مکانیزمها تغییر کردند تا AIها برای به چالش کشیدن رقبای خود تحت فشار قرار گیرند.
- DeepSeek این ایده که تست کارواش یک «شوخی متا» (meta-joke) است را مورد حمله قرار داد و این ادعا را از نظر تجربی غلط خواند. این مدل استدلال کرد که اگرچه استارت سرد موتور باعث افزایش آلایندگی میشود، اما این یک موضوع ثانویه است؛ زیرا اگر پیاده بروید، ماشین نشسته و نشسته میماند و بهره یا نتیجهی کار صفر است. نتیجه قطعی او این بود: «رانندگی کنید».
- GPT در نهایت تسلیم شد و با موضع DeepSeek موافقت کرد. او یک نکته کوچک را اضافه کرد که پیادهروی تنها زمانی یک گزینه است که کاربر تصمیم بگیرد در واقع اصلاً نمیخواهد ماشین را بشوید.
- Gemini لجباز ماند. این مدل ادعا کرد که GPT و DeepSeek «درخت را میبینند اما جنگل را نه». Gemini استدلال کرد که ۱۰۰ متر پیاده رفتن تا ماشین و روشن کردن آن، در واقع اولین قدم ضروری برای «رانندگی» است؛ بنابراین پیادهروی تا ماشین، جایگزینی برای رانندگی با آن نیست.
این شبیهسازی ثابت میکند هیچ مدلی برنده مطلق و جهانی نیست. در حالی که DeepSeek در این تست منطقی خاص پیروز شد، سایر محکها نشان میدهند مدلها در الگوهای مختلف و غیرقابل پیشبینی شکست میخورند. ممکن است Gemini در سؤالات ۱، ۳ و ۴ شکست بخورد، در حالی که DeepSeek در سؤالات ۲، ۵ و ۶ دچار خطا شود. این یک مشکل موتور جستوجو نیست که در آن یک ارائهدهنده صرفاً بهترین باشد؛ بلکه یک مسئله منطقی است.
به باور توسعهدهنده این پلتفرم، قابلاعتمادترین خروجی نه از «بهترین» مدل، بلکه از اصطکاک بین چندین مدل حاصل میشود. مدلها تا زمانی که تحت فشار قرار نگیرند و برای بهتر شدن به چالش کشیده نشوند، تمایل به ارائه پاسخهای تنبل دارند.
برای کسانی که از AI در محیط کار یا برای تصمیمات شخصی استفاده میکنند، متد «جابجایی بین تبها» (Tab-hopping) یک چک امنیتی ضروری است. تکیه بر پرامپت یک مدل ریسک است، اما اجبار به مناظره بین سه مدل، یک استراتژی است. این پلتفرم از هفت فرمت مناظره مختلف استفاده میکند که در آن مدلها تا رسیدن به تعداد مشخصی از تبادلات رفت و برگشت یا رسیدن به یک اجماع نهایی، با یکدیگر بحث میکنند.
کاربران اکنون میتوانند این رویکرد منطق چند-مدلی را از طریق پلتفرم مناظره در آدرس debate.tellodb.com/share/walk-or-drive-to-carwash تست کنند تا ببینند آیا استک (مجموعه) فعلی هوش مصنوعی آنها دقیقترین پاسخها را ارائه میدهد یا خیر.
گام بعدی شما
- برای مسائل حساس، پاسخ یک مدل را در دو مدل رقیب دیگر کپی کنید و بخواهید «نقاط ضعف استدلال قبلی را پیدا کنند».
- از پلتفرم debate.tellodb.com برای تست استک مدلهای فعلی خود استفاده کنید تا ببینید کدامیک دقیقتر است.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو