Headline:
تلهی بنچمارکها: چرا GPT-5.5 با وجود رکوردشکنی، ۸۶ درصد توهم میزند؟
Body:
باید بدانید که صدرنشینی در جدولهای ردهبندی، دیگر تضمینی برای صحت پاسخها نیست. مدل Qwen3.6-27B نیز با کنار زدن نسخهی ۳۹۷ میلیارد پارامتری خود در بنچمارکهای کدنویسی، نشان داده است که حجم بالا لزوماً به معنای برتری نیست؛ با این حال، تلهی بنچمارکها اکنون ابعاد تازهتری از خود نشان میدهد. تصور کنید مدلی که در تمام آزمونها رکورد میزند، اما در ۸۶ درصد موارد دچار توهم (Hallucination) میشود.
به نقل از وبسایت the-decoder.com، مدل GPT-5.5 شرکت OpenAI در تاریخ ۲۵ آوریل ۲۰۲۶، در حالی که رتبهی اول بنچمارکها را تصاحب کرده، نرخ توهم ۸۶ درصدی را در آزمون AA Omniscience ثبت کرده است. این رقم بیش از دو برابر نرخ توهم در مدل Claude Opus 4.7 محصول شرکت Anthropic است که تنها ۳۶ درصد است.

در ۲۴ آوریل ۲۰۲۶، OpenAI این مدل را با قیمتهای جدیدی عرضه کرد که هزینهی توکنهای ورودی و خروجی را به ۵ و ۳۰ دلار در هر میلیون توکن رساند. با این حال، طبق گزارش سرویس Artificial Analysis، این مدل ۴۰ درصد توکنهای کمتری نسبت به GPT-5.4 مصرف میکند و در نتیجه، افزایش خالص قیمت تنها حدود ۲۰ درصد است.

جزئیات فنی عملکرد این مدل به شرح زیر است:
- کسب ۶۰ امتیاز در شاخص هوش مصنوعی Artificial Analysis (بالاتر از امتیاز ۵۷ مدلهای Claude و Gemini 3.1 Pro Preview).
- تطبیق عملکرد با حداکثر امتیاز Claude Opus 4.7 در حالت محاسبات متوسط، با هزینهی ۱,۲۰۰ دلار به جای ۴,۸۰۰ دلار.

اما این اعداد درخشان، یک شکاف عمیق در قابلیت اعتماد را پنهان میکنند. در آزمون AA Omniscience، اگرچه GPT-5.5 با دقت ۵۷ درصدی رتبهی اول را دارد، اما نرخ توهم آن ۸۶ درصد است. در مقایسه، Gemini 3.1 Pro Preview نرخ توهم ۵۰ درصدی دارد. این یعنی پیشرفت ۱۴ امتیازی نسبت به نسخهی قبلی، تنها حاصل بازیابی بهتر حقایق است، نه مهار پاسخهای غلط.
در پوشش پیشین ما از تأثیر مدلهای زبانی بزرگ (Large Language Models) بر اشتغال، دیدیم که اتوماسیون کدنویسی رشد شغلی برنامهنویسان آمریکایی را نصف کرده است. اکنون این دادههای جدید هشدار میدهند که تکیه بر مدلهایی که پاسخهای ساختگی میدهند، میتواند خطاها را در مقیاس صنعتی خودکار کند.
مشکل در آزمون BullshitBench سایت Arena.ai وخیمتر است. پیتر گوستف، مدیر قابلیتهای AI در این مرکز، دریافت که GPT-5.5 تنها در ۴۵ درصد موارد در برابر مطالب بیمعنی مقاومت میکند. جالبتر اینکه نسخهی گرانتر، یعنی GPT-5.5 Pro، با ۳۵ درصد عملکرد بدتری دارد. به باور گوستف، افزایش قدرت محاسباتی (Compute) در مدلهای استدلالی (Reasoning Models) باعث میشود مدلها به جای رد کردن مطالب پوچ، برای آنها دلیلتراشی کنند.

این تنها آغاز ماجراست؛ اثر موجگونهی این تضاد میان قدرت و دقت بر اکوسیستم مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر از APIهای جدید استفاده میکنید، حتماً یک لایهی اعتبارسنجی (Validation) برای خروجیها پیاده کنید.
- هزینههای توکن خود را با توجه به بهرهوری ۴۰ درصدی مدل جدید بازنگری کنید.
- برای کارهای حساس، مدل Claude Opus 4.7 را به دلیل نرخ توهم پایینتر تست کنید.




گفتگو