چگونه یک حسابرسی سه‌مرحله‌ای، توهمات پنهان در خط لوله ارزیابی LLM را افشا کرد؟

اگر برای سنجش دقت هوش مصنوعی خود تنها به یک داور مدل زبانی تکیه می‌کنید، احتمالاً به جای عملکرد، دارید «نویز» را اندازه می‌گیرید. یک مطالعه‌ی موردی روی نسخه‌ی خود-میزبان Langfuse ثابت می‌کند که یک جدول رده‌بندی «ایده‌آل»، اغلب یک خط لوله (Pipeline) شکسته را پنهان می‌کند.

این چالش برای تیم‌هایی که در حال مقیاس‌بندی زیرساخت‌های خود هستند، بسیار رایج است. همان‌طور که در تحلیل قبلی ما درباره‌ی پیچیدگی‌های مسیریابی مدل‌های مختلف اشاره کردیم، ناپایداری زیرساخت می‌تواند معیارهایی را که برای انتخاب مدل بهینه استفاده می‌کنید، مسموم کند. در این میان، مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — گاهی در تله‌های فنی می‌افتد.

به نقل از مستندات این پروژه، در ۶ مه ۲۰۲۶، یک حسابرسی نهایی نرخ اختلاف ۱۷ درصدی را بین دو داور مختلف شناسایی کرد. طبق گزارش این مورد، مراحل پیشین مسیر را برای این کشف آماده کرده بودند:

حسابرسی اول (۲ تا ۳ مه): رفع نرخ ۳۲ درصدی خطاهای اپلیکیشن و باگ max_tokens.
حسابرسی دوم (۲ تا ۵ مه): کشف اینکه ۲۲ درصد از نمرات توهم (Hallucination) — یعنی وقتی مدل با اطمینان چیزی می‌گوید که وجود ندارد، شبیه دوستی که خاطره‌ای را اشتباه تعریف می‌کند — در واقع خطای خط لوله بودند، نه شکست مدل.

وقتی سطح نویز کاهش یافت، یک باگ جدید ظاهر شد. مدل‌هایی مثل poolside/laguna-m.1 و openai/gpt-oss-120b شروع به تکرار عیناً متن ورودی کردند. چون داور «صحت»، فقط تطابق متنی با پاسخ مرجع را چک می‌کرد، این خروجی‌های خراب نمره کامل ۱.۰ گرفتند؛ در حالی که داور توهم، به‌درستی نمره ۰.۰ داد.

این اتفاق ثابت می‌کند که معیارهای تک-داور خطرناک هستند. شما ممکن است نمره صحت بالایی ببینید، اما مدل شما در سکوت به یک حلقه‌ی تکرار پرامپت سقوط کرده باشد. برای صاحبان کسب‌وکار، این یعنی «بهترین» مدل شما ممکن است نه مدل استدلالی‌تر، بلکه مدلی باشد که پیش‌بینی‌پذیرترین شکست را دارد.

گام بعدی شما

پیش از ارسال متن به داور LLM، یک تشخیص‌دهنده تکرار (Echo Detector) قطعی با استفاده از فاصله لِونشتاین (Levenshtein distance) پیاده کنید.
معیارهای بلااستفاده، مثل داور «سمی بودن» در محیط‌های غیرسمی را حذف کرده و جایگزین آن‌ها را بررسی تطبیق فرمت (Format Compliance) برای شناسایی JSONهای خراب قرار دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

حسابرسی اول (۲ تا ۳ مه): رفع نرخ ۳۲ درصدی خطاهای اپلیکیشن و باگ max_tokens.
حسابرسی دوم (۲ تا ۵ مه): کشف اینکه ۲۲ درصد از نمرات توهم (Hallucination) — یعنی وقتی مدل با اطمینان چیزی می‌گوید که وجود ندارد، شبیه دوستی که خاطره‌ای را اشتباه تعریف می‌کند — در واقع خطای خط لوله بودند، نه شکست مدل.

گام بعدی شما

پیش از ارسال متن به داور LLM، یک تشخیص‌دهنده تکرار (Echo Detector) قطعی با استفاده از فاصله لِونشتاین (Levenshtein distance) پیاده کنید.
معیارهای بلااستفاده، مثل داور «سمی بودن» در محیط‌های غیرسمی را حذف کرده و جایگزین آن‌ها را بررسی تطبیق فرمت (Format Compliance) برای شناسایی JSONهای خراب قرار دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه یک حسابرسی سه‌مرحله‌ای، توهمات پنهان در خط لوله ارزیابی LLM را افشا کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه یک حسابرسی سه‌مرحله‌ای، توهمات پنهان در خط لوله ارزیابی LLM را افشا کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه یک حسابرسی سه‌مرحله‌ای، توهمات پنهان در خط لوله ارزیابی LLM را افشا کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه یک حسابرسی سه‌مرحله‌ای، توهمات پنهان در خط لوله ارزیابی LLM را افشا کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران