تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

Headline:
تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

Body:
باید بدانید که صدرنشینی در جدول‌های رده‌بندی، دیگر تضمینی برای صحت پاسخ‌ها نیست. مدل Qwen3.6-27B نیز با کنار زدن نسخه‌ی ۳۹۷ میلیارد پارامتری خود در بنچمارک‌های کدنویسی، نشان داده است که حجم بالا لزوماً به معنای برتری نیست؛ با این حال، تله‌ی بنچمارک‌ها اکنون ابعاد تازه‌تری از خود نشان می‌دهد. تصور کنید مدلی که در تمام آزمون‌ها رکورد می‌زند، اما در ۸۶ درصد موارد دچار توهم (Hallucination) می‌شود.

به نقل از وب‌سایت the-decoder.com، مدل GPT-5.5 شرکت OpenAI در تاریخ ۲۵ آوریل ۲۰۲۶، در حالی که رتبه‌ی اول بنچمارک‌ها را تصاحب کرده، نرخ توهم ۸۶ درصدی را در آزمون AA Omniscience ثبت کرده است. این رقم بیش از دو برابر نرخ توهم در مدل Claude Opus 4.7 محصول شرکت Anthropic است که تنها ۳۶ درصد است.

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "GPT-5.5 tops benchmarks but

در ۲۴ آوریل ۲۰۲۶، OpenAI این مدل را با قیمت‌های جدیدی عرضه کرد که هزینه‌ی توکن‌های ورودی و خروجی را به ۵ و ۳۰ دلار در هر میلیون توکن رساند. با این حال، طبق گزارش سرویس Artificial Analysis، این مدل ۴۰ درصد توکن‌های کمتری نسبت به GPT-5.4 مصرف می‌کند و در نتیجه، افزایش خالص قیمت تنها حدود ۲۰ درصد است.

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "GPT-5.5 tops benchmarks but still h

جزئیات فنی عملکرد این مدل به شرح زیر است:

کسب ۶۰ امتیاز در شاخص هوش مصنوعی Artificial Analysis (بالاتر از امتیاز ۵۷ مدل‌های Claude و Gemini 3.1 Pro Preview).
تطبیق عملکرد با حداکثر امتیاز Claude Opus 4.7 در حالت محاسبات متوسط، با هزینه‌ی ۱,۲۰۰ دلار به جای ۴,۸۰۰ دلار.

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "GPT-5.5 tops benchmarks but still h

اما این اعداد درخشان، یک شکاف عمیق در قابلیت اعتماد را پنهان می‌کنند. در آزمون AA Omniscience، اگرچه GPT-5.5 با دقت ۵۷ درصدی رتبه‌ی اول را دارد، اما نرخ توهم آن ۸۶ درصد است. در مقایسه، Gemini 3.1 Pro Preview نرخ توهم ۵۰ درصدی دارد. این یعنی پیشرفت ۱۴ امتیازی نسبت به نسخه‌ی قبلی، تنها حاصل بازیابی بهتر حقایق است، نه مهار پاسخ‌های غلط.

در پوشش پیشین ما از تأثیر مدل‌های زبانی بزرگ (Large Language Models) بر اشتغال، دیدیم که اتوماسیون کدنویسی رشد شغلی برنامه‌نویسان آمریکایی را نصف کرده است. اکنون این داده‌های جدید هشدار می‌دهند که تکیه بر مدل‌هایی که پاسخ‌های ساختگی می‌دهند، می‌تواند خطاها را در مقیاس صنعتی خودکار کند.

مشکل در آزمون BullshitBench سایت Arena.ai وخیم‌تر است. پیتر گوستف، مدیر قابلیت‌های AI در این مرکز، دریافت که GPT-5.5 تنها در ۴۵ درصد موارد در برابر مطالب بی‌معنی مقاومت می‌کند. جالب‌تر اینکه نسخه‌ی گران‌تر، یعنی GPT-5.5 Pro، با ۳۵ درصد عملکرد بدتری دارد. به باور گوستف، افزایش قدرت محاسباتی (Compute) در مدل‌های استدلالی (Reasoning Models) باعث می‌شود مدل‌ها به جای رد کردن مطالب پوچ، برای آن‌ها دلیل‌تراشی کنند.

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "GPT-5.5 tops benchmarks but still h

این تنها آغاز ماجراست؛ اثر موج‌گونه‌ی این تضاد میان قدرت و دقت بر اکوسیستم مدل‌های بازمتن را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

اگر از APIهای جدید استفاده می‌کنید، حتماً یک لایه‌ی اعتبارسنجی (Validation) برای خروجی‌ها پیاده کنید.
هزینه‌های توکن خود را با توجه به بهره‌وری ۴۰ درصدی مدل جدید بازنگری کنید.
برای کارهای حساس، مدل Claude Opus 4.7 را به دلیل نرخ توهم پایین‌تر تست کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Headline:
تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "GPT-5.5 tops benchmarks but

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "GPT-5.5 tops benchmarks but still h

جزئیات فنی عملکرد این مدل به شرح زیر است:

کسب ۶۰ امتیاز در شاخص هوش مصنوعی Artificial Analysis (بالاتر از امتیاز ۵۷ مدل‌های Claude و Gemini 3.1 Pro Preview).
تطبیق عملکرد با حداکثر امتیاز Claude Opus 4.7 در حالت محاسبات متوسط، با هزینه‌ی ۱,۲۰۰ دلار به جای ۴,۸۰۰ دلار.

The user wants a Persian (Farsi) alt text translation for an image in an article titled: "GPT-5.5 tops benchmarks but still h

گام بعدی شما

اگر از APIهای جدید استفاده می‌کنید، حتماً یک لایه‌ی اعتبارسنجی (Validation) برای خروجی‌ها پیاده کنید.
هزینه‌های توکن خود را با توجه به بهره‌وری ۴۰ درصدی مدل جدید بازنگری کنید.
برای کارهای حساس، مدل Claude Opus 4.7 را به دلیل نرخ توهم پایین‌تر تست کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی بنچمارک‌ها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم می‌زند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران