چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

اگر برای مسیریابی (Routing) درخواست‌ها یا فیلتر کردن پاسخ‌ها به نمرات اطمینان مدل تکیه می‌کنید، احتمالاً با یک ناپایداری ریاضی رو‌به‌رو هستید. باید بدانید که نمرات بالای بنچمارک‌ها لزوماً به معنای قابل‌اعتماد بودن مدل در محیط عملیاتی نیست.

این یافته در حالی منتشر می‌شود که صنعت در تلاش است از معیارهای ایستا (Static Metrics) فاصله بگیرد. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی بازیابی با استفاده از GRPO اشاره کردیم، کیفیت خروجی تنها نیمی از داستان است و نیمی دیگر، درک مدل از مرزهای دانش خود است.

طبق گزارشی که در ۱۲ می ۲۰۲۶ در arxiv.org منتشر شد، ابزاری به نام کاوشگر فراشناختی (Metacognitive Probe) نشان داد که Gemini 2.5 Flash دچار یک گسست ۴۷ امتیازی در رفتار اطمینان است. این ابزار، اطمینان مدل زبانی بزرگ (LLM) را به پنج بُعد مجزا تجزیه می‌کند:

کالیبراسیون اطمینان (Confidence Calibration - T1-CC)
هشیاری معرفتی (Epistemic Vigilance - T2-EV)
مرز دانش (Knowledge Boundary - T3-KB)
بازه کالیبراسیون (Calibration Range - T4-CR)
اعتبارسنجی زنجیره استدلال (Reasoning-Chain Validation - T5-RCV)

بر اساس مستندات این پژوهش که روی ۸ مدل پیشرو و ۶۹ انسان اجرا شده، Gemini 2.5 Flash در بُعد T1-CC نمره ۸۸ (Spearman rho = +0.551) را کسب کرد، اما در بُعد T4-CR به شدت سقوط کرد و نمره ۴۱ را گرفت. این یعنی مدل می‌داند چگونه در یک وظیفه خاص پاسخ خود را کالیبره کند، اما نمی‌تواند پیش‌بینی کند که یک وظیفه پیش از شروع، چقدر دشوار است.

به باور تحلیلگران، این موضوع پیش‌فرض‌های نظارت‌پذیری (Observability) را در میدان تغییر می‌دهد. این نتایج ثابت می‌کند که نمرات تجمیعی در بنچمارک‌هایی مثل MMLU یا GPQA درباره خطرناک‌ترین جنبه استقرار مدل‌ها، یعنی ناتوانی در اعلام جهل، سکوت می‌کنند.

گام بعدی شما

بررسی کنید که آیا این پنج بُعد رفتاری در مجموعه‌های ارزیابی (Evaluation Suites) داخلی شما ادغام شده‌اند یا خیر.
بررسی کنید که آیا می‌توان از طریق تنظیم دقیق (Fine-tuning) با روش RLHF، قابلیت پیش‌بینی دشواری بین-وظیفه‌ای را بهبود داد.
از تکیه بر تک‌نمره‌ای برای اطمینان (Confidence Score) در سیستم‌های حساس اجتناب کنید.

اما این نقص در خودآگاهی مدل‌ها، تنها بخشی از چالش‌های استقرار است؛ برای درک لایه‌ی سخت‌افزاری این پردازش‌ها، تحلیل ما درباره‌ی تراشه‌های Blackwell را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

کالیبراسیون اطمینان (Confidence Calibration - T1-CC)
هشیاری معرفتی (Epistemic Vigilance - T2-EV)
مرز دانش (Knowledge Boundary - T3-KB)
بازه کالیبراسیون (Calibration Range - T4-CR)
اعتبارسنجی زنجیره استدلال (Reasoning-Chain Validation - T5-RCV)

گام بعدی شما

بررسی کنید که آیا این پنج بُعد رفتاری در مجموعه‌های ارزیابی (Evaluation Suites) داخلی شما ادغام شده‌اند یا خیر.
بررسی کنید که آیا می‌توان از طریق تنظیم دقیق (Fine-tuning) با روش RLHF، قابلیت پیش‌بینی دشواری بین-وظیفه‌ای را بهبود داد.
از تکیه بر تک‌نمره‌ای برای اطمینان (Confidence Score) در سیستم‌های حساس اجتناب کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران