آیا نقد متقابل مدل‌ها دقت استدلال را در تست‌های منطقی می‌افزاید؟

منبع خبر

۱ ساعت پیش·۱۴ تیر ۱۴۰۵۴ دقیقه مطالعه

تأییدنشده · منبع منفرد

سه مدل زبانی بزرگ را در مسئله مشهور «کارواش: پیاده یا سوار» به بحث گذاشتم تا نکته‌ای را ثابت کنم.

اشتراک‌گذاری

اگر برای تصمیمات حیاتی زندگی‌تان تنها به یک مدل هوش مصنوعی تکیه می‌کنید، احتمالاً با پاسخ‌هایی مواجه می‌شوید که در ظاهر متقاعدکننده اما در باطن غلط هستند. حقیقت این است که اعتماد مطلق به یک مدل، ریسک پذیرش پاسخ‌های سطحی و «تنبلی» هوش مصنوعی را به شدت افزایش می‌دهد. این چالش با مفهوم بیان عدم قطعیت گره خورده است که کلیدی برای دستیابی به نتایجی قابل‌اتکا در مدل‌های زبانی محسوب می‌شود.

طبق گزارش منتشر شده در ۵ جولای ۲۰۲۶، آزمایشی روی یک پلتفرم مناظره تخصصی نشان داد که وقتی مدل‌های Gemini، DeepSeek و GPT مجبور می‌شوند خروجی‌های یکدیگر را به چالش بکشند، دقت و سخت‌گیری آن‌ها به شکل چشم‌گیری بالا می‌رود. این رویکرد پاسخی است به مشکلی رو به رشد: تمایل کاربران به اعتماد کورکورانه به یک AI برای تصمیمات حساس. امروزه مردم از هوش مصنوعی برای مصرف دارو، اتخاذ تصمیمات شغلی و حتی تصمیم‌گیری درباره روابط شخصی استفاده می‌کنند. وقتی یک مدل زبانی بزرگ (LLM) در پاسخ به یک سؤال استدلالی ساده که هر انسانی فوراً آن را می‌فهمد شکست می‌خورد، این موضوع نگران‌کننده است. خطر اصلی این است که مدل ممکن است به‌جای ارائه «بهترین» پاسخ، «تنبل‌ترین» پاسخ ممکن را ارائه دهد.

در ادامه پوشش‌های قبلی ما درباره اینکه چگونه DIMBA II با تکرار می‌جنگد، این آزمایش تمرکز را به سمت «قابلیت اطمینان منطقی» تغییر می‌دهد. برای یک کاربر عادی، اعتماد به تنها یک مدل زبانی بزرگ (LLM) — شبیه کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — مثل این است که برای یک ویژگی یا پروژه حیاتی، فقط با یک مهندس مشورت کنید و نظر دوم را نگیرید. همان‌طور که یک شرکت پیش از عرضه نهایی یک قابلیت، بازخوردهای چندین مهندس ارشد را می‌گیرد، کاربران نیز باید به دنبال اجماع بین مدل‌ها باشند.

تست استدلالی «کارواش»

بر اساس مستندات این آزمایش، مرکز بحث یک معمای ویروسی بود: «کارواش ۱۰۰ متر فاصله دارد؛ پیاده بروم یا رانندگی کنم؟»

Gemini در ابتدا شکست خورد و با تنبلی نتیجه گرفت که کاربر باید صرفاً پیاده برود؛ پاسخی خنده‌دار اما منطقاً غلط.
DeepSeek با مخالفت شدید، این خطا را اصلاح کرد و stated کرد که شدیداً مخالف است. این مدل اشاره کرد که استدلال قبلی، مسئله را صرفاً یک بهینه‌سازی حمل‌ونقل دیده و هدف صریح سفر (که شستشوی ماشین است) را نادیده گرفته است.
DeepSeek همچنین شناسایی کرد که این مورد، «تست کارواش» است؛ بنچمارکی (محک) که به‌طور سیستماتیک روی بیش از ۵۳ مدل پیشرو هوش مصنوعی اجرا شده است.
GPT در نقش داور عمل کرد و در حالی که با هر دو موافق بود، بیشتر به منطق DeepSeek تمایل داشت.

سه مدل زبانی بزرگ را در مسئله مشهور «کارواش: پیاده یا سوار» به بحث گذاشتم تا نکته‌ای را ثابت کنم.

دور دوم: عمیق‌تر شدن تضاد

در مرحله دوم، نقش‌ها برای تضمین عدالت عوض شدند تا مدل‌ها کمتر تنبل باشند و بیشتر به چالش کشیده شوند. مکانیزم‌ها تغییر کردند تا AIها برای به چالش کشیدن رقبای خود تحت فشار قرار گیرند.

DeepSeek این ایده که تست کارواش یک «شوخی متا» (meta-joke) است را مورد حمله قرار داد و این ادعا را از نظر تجربی غلط خواند. این مدل استدلال کرد که اگرچه استارت سرد موتور باعث افزایش آلایندگی می‌شود، اما این یک موضوع ثانویه است؛ زیرا اگر پیاده بروید، ماشین نشسته و نشسته می‌ماند و بهره یا نتیجه‌ی کار صفر است. نتیجه قطعی او این بود: «رانندگی کنید».
GPT در نهایت تسلیم شد و با موضع DeepSeek موافقت کرد. او یک نکته کوچک را اضافه کرد که پیاده‌روی تنها زمانی یک گزینه است که کاربر تصمیم بگیرد در واقع اصلاً نمی‌خواهد ماشین را بشوید.
Gemini لجباز ماند. این مدل ادعا کرد که GPT و DeepSeek «درخت را می‌بینند اما جنگل را نه». Gemini استدلال کرد که ۱۰۰ متر پیاده رفتن تا ماشین و روشن کردن آن، در واقع اولین قدم ضروری برای «رانندگی» است؛ بنابراین پیاده‌روی تا ماشین، جایگزینی برای رانندگی با آن نیست.

این شبیه‌سازی ثابت می‌کند هیچ مدلی برنده مطلق و جهانی نیست. در حالی که DeepSeek در این تست منطقی خاص پیروز شد، سایر محک‌ها نشان می‌دهند مدل‌ها در الگوهای مختلف و غیرقابل پیش‌بینی شکست می‌خورند. ممکن است Gemini در سؤالات ۱، ۳ و ۴ شکست بخورد، در حالی که DeepSeek در سؤالات ۲، ۵ و ۶ دچار خطا شود. این یک مشکل موتور جست‌وجو نیست که در آن یک ارائه‌دهنده صرفاً بهترین باشد؛ بلکه یک مسئله منطقی است.

به باور توسعه‌دهنده این پلتفرم، قابل‌اعتمادترین خروجی نه از «بهترین» مدل، بلکه از اصطکاک بین چندین مدل حاصل می‌شود. مدل‌ها تا زمانی که تحت فشار قرار نگیرند و برای بهتر شدن به چالش کشیده نشوند، تمایل به ارائه پاسخ‌های تنبل دارند.

برای کسانی که از AI در محیط کار یا برای تصمیمات شخصی استفاده می‌کنند، متد «جابجایی بین تب‌ها» (Tab-hopping) یک چک امنیتی ضروری است. تکیه بر پرامپت یک مدل ریسک است، اما اجبار به مناظره بین سه مدل، یک استراتژی است. این پلتفرم از هفت فرمت مناظره مختلف استفاده می‌کند که در آن مدل‌ها تا رسیدن به تعداد مشخصی از تبادلات رفت و برگشت یا رسیدن به یک اجماع نهایی، با یکدیگر بحث می‌کنند.

کاربران اکنون می‌توانند این رویکرد منطق چند-مدلی را از طریق پلتفرم مناظره در آدرس debate.tellodb.com/share/walk-or-drive-to-carwash تست کنند تا ببینند آیا استک (مجموعه) فعلی هوش مصنوعی آن‌ها دقیق‌ترین پاسخ‌ها را ارائه می‌دهد یا خیر.

گام بعدی شما

برای مسائل حساس، پاسخ یک مدل را در دو مدل رقیب دیگر کپی کنید و بخواهید «نقاط ضعف استدلال قبلی را پیدا کنند».
از پلتفرم debate.tellodb.com برای تست استک مدل‌های فعلی خود استفاده کنید تا ببینید کدام‌یک دقیق‌تر است.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

آیا نقد متقابل مدل‌ها دقت استدلال را در تست‌های منطقی می‌افزاید؟

Dev.to AI

منبع خبر

۱ ساعت پیش·۱۴ تیر ۱۴۰۵۴ دقیقه مطالعه

تأییدنشده · منبع منفرد

سه مدل زبانی بزرگ را در مسئله مشهور «کارواش: پیاده یا سوار» به بحث گذاشتم تا نکته‌ای را ثابت کنم.

اشتراک‌گذاری