اگر برای مسیریابی (Routing) درخواستها یا فیلتر کردن پاسخها به نمرات اطمینان مدل تکیه میکنید، احتمالاً با یک ناپایداری ریاضی روبهرو هستید. باید بدانید که نمرات بالای بنچمارکها لزوماً به معنای قابلاعتماد بودن مدل در محیط عملیاتی نیست.
این یافته در حالی منتشر میشود که صنعت در تلاش است از معیارهای ایستا (Static Metrics) فاصله بگیرد. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی بازیابی با استفاده از GRPO اشاره کردیم، کیفیت خروجی تنها نیمی از داستان است و نیمی دیگر، درک مدل از مرزهای دانش خود است.
طبق گزارشی که در ۱۲ می ۲۰۲۶ در arxiv.org منتشر شد، ابزاری به نام کاوشگر فراشناختی (Metacognitive Probe) نشان داد که Gemini 2.5 Flash دچار یک گسست ۴۷ امتیازی در رفتار اطمینان است. این ابزار، اطمینان مدل زبانی بزرگ (LLM) را به پنج بُعد مجزا تجزیه میکند:
- کالیبراسیون اطمینان (Confidence Calibration - T1-CC)
- هشیاری معرفتی (Epistemic Vigilance - T2-EV)
- مرز دانش (Knowledge Boundary - T3-KB)
- بازه کالیبراسیون (Calibration Range - T4-CR)
- اعتبارسنجی زنجیره استدلال (Reasoning-Chain Validation - T5-RCV)
بر اساس مستندات این پژوهش که روی ۸ مدل پیشرو و ۶۹ انسان اجرا شده، Gemini 2.5 Flash در بُعد T1-CC نمره ۸۸ (Spearman rho = +0.551) را کسب کرد، اما در بُعد T4-CR به شدت سقوط کرد و نمره ۴۱ را گرفت. این یعنی مدل میداند چگونه در یک وظیفه خاص پاسخ خود را کالیبره کند، اما نمیتواند پیشبینی کند که یک وظیفه پیش از شروع، چقدر دشوار است.
به باور تحلیلگران، این موضوع پیشفرضهای نظارتپذیری (Observability) را در میدان تغییر میدهد. این نتایج ثابت میکند که نمرات تجمیعی در بنچمارکهایی مثل MMLU یا GPQA درباره خطرناکترین جنبه استقرار مدلها، یعنی ناتوانی در اعلام جهل، سکوت میکنند.
گام بعدی شما
- بررسی کنید که آیا این پنج بُعد رفتاری در مجموعههای ارزیابی (Evaluation Suites) داخلی شما ادغام شدهاند یا خیر.
- بررسی کنید که آیا میتوان از طریق تنظیم دقیق (Fine-tuning) با روش RLHF، قابلیت پیشبینی دشواری بین-وظیفهای را بهبود داد.
- از تکیه بر تکنمرهای برای اطمینان (Confidence Score) در سیستمهای حساس اجتناب کنید.
اما این نقص در خودآگاهی مدلها، تنها بخشی از چالشهای استقرار است؛ برای درک لایهی سختافزاری این پردازشها، تحلیل ما دربارهی تراشههای Blackwell را بخوانید.




گفتگو