اگر برای سنجش دقت هوش مصنوعی خود تنها به یک داور مدل زبانی تکیه میکنید، احتمالاً به جای عملکرد، دارید «نویز» را اندازه میگیرید. یک مطالعهی موردی روی نسخهی خود-میزبان Langfuse ثابت میکند که یک جدول ردهبندی «ایدهآل»، اغلب یک خط لوله (Pipeline) شکسته را پنهان میکند.
این چالش برای تیمهایی که در حال مقیاسبندی زیرساختهای خود هستند، بسیار رایج است. همانطور که در تحلیل قبلی ما دربارهی پیچیدگیهای مسیریابی مدلهای مختلف اشاره کردیم، ناپایداری زیرساخت میتواند معیارهایی را که برای انتخاب مدل بهینه استفاده میکنید، مسموم کند. در این میان، مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — گاهی در تلههای فنی میافتد.
به نقل از مستندات این پروژه، در ۶ مه ۲۰۲۶، یک حسابرسی نهایی نرخ اختلاف ۱۷ درصدی را بین دو داور مختلف شناسایی کرد. طبق گزارش این مورد، مراحل پیشین مسیر را برای این کشف آماده کرده بودند:
- حسابرسی اول (۲ تا ۳ مه): رفع نرخ ۳۲ درصدی خطاهای اپلیکیشن و باگ
max_tokens. - حسابرسی دوم (۲ تا ۵ مه): کشف اینکه ۲۲ درصد از نمرات توهم (Hallucination) — یعنی وقتی مدل با اطمینان چیزی میگوید که وجود ندارد، شبیه دوستی که خاطرهای را اشتباه تعریف میکند — در واقع خطای خط لوله بودند، نه شکست مدل.
وقتی سطح نویز کاهش یافت، یک باگ جدید ظاهر شد. مدلهایی مثل poolside/laguna-m.1 و openai/gpt-oss-120b شروع به تکرار عیناً متن ورودی کردند. چون داور «صحت»، فقط تطابق متنی با پاسخ مرجع را چک میکرد، این خروجیهای خراب نمره کامل ۱.۰ گرفتند؛ در حالی که داور توهم، بهدرستی نمره ۰.۰ داد.
این اتفاق ثابت میکند که معیارهای تک-داور خطرناک هستند. شما ممکن است نمره صحت بالایی ببینید، اما مدل شما در سکوت به یک حلقهی تکرار پرامپت سقوط کرده باشد. برای صاحبان کسبوکار، این یعنی «بهترین» مدل شما ممکن است نه مدل استدلالیتر، بلکه مدلی باشد که پیشبینیپذیرترین شکست را دارد.
گام بعدی شما
- پیش از ارسال متن به داور LLM، یک تشخیصدهنده تکرار (Echo Detector) قطعی با استفاده از فاصله لِونشتاین (Levenshtein distance) پیاده کنید.
- معیارهای بلااستفاده، مثل داور «سمی بودن» در محیطهای غیرسمی را حذف کرده و جایگزین آنها را بررسی تطبیق فرمت (Format Compliance) برای شناسایی JSONهای خراب قرار دهید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو