چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

اگر تصور می‌کنید مسیرهای داخلی یک مدل هوش مصنوعی پنجره‌ای به سوی میزان اطمینان آن است، احتمالاً در تعقیب یک توهم آماری هستید. باید بدانید که ردپاهای مسیریابی در معماری‌های مدرن، برخلاف ادعاهای رایج، ابزاری قابل‌اعتماد برای سنجش عدم قطعیت مدل نیستند.

این یافته‌ها در حالی منتشر می‌شوند که معماری‌های تقویت‌شده با مسیریابی (Routing) به طور گسترده‌ای پذیرفته شده‌اند. همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، هرگونه تغییر در ساختار داخلی مدل می‌تواند پیامدهای پیش‌بینی‌نشده‌ای در خروجی داشته باشد. اکنون این پژوهش بررسی می‌کند که آیا این تغییرات ساختاری واقعاً داده‌های تشخیصی مفیدی برای توسعه‌دهندگان فراهم می‌کنند یا خیر.

به نقل از گزارش منتشرشده در ۱۲ مه ۲۰۲۶ در arxiv.org، پژوهشگران مجموعه‌ای از ابزارهای تشخیصی را روی مدل‌های ترنسفورمرهای باقی‌مانده-توجه (Attention-Residual یا AR) که توسط تیم کیمی (Kimi Team) توسعه یافته‌اند، آزمایش کردند. یافته‌های کلیدی این بررسی عبارتند از:

پروب AR-CondCal (AR-CondCal probe) — یک پروب نادارایا-واتسون دو-بعدی که بر روی اطمینان و واریانس عمق مسیریابی تمرکز دارد — نتوانست به‌طور قابل‌اعتمادی خطای کالیبراسیون مورد انتظار (Expected Calibration Error یا ECE) را در بدترین وضعیت‌های مسیریابی بهبود بخشد.
در میان ۳۰ تست جایگشت (Permutation Tests) داخلی، تنها ۱ مورد توانست فرض صفر شرطی را در سطح $\alpha=0.05$ رد کند و این نتیجه در بیدرهای (Seeds) مختلف پایدار نبود.
اگرچه یک MLP با بردار کامل روی پروفایل‌های مسیریابی در ابتدا بهتر از خط مبنای اطمینان عمل کرد، اما این برتری در مقایسه با یک MLP با ظرفیت مشابه که فقط از داده‌های اطمینان استفاده می‌کرد، کاملاً از بین رفت.

برای جامعه فنی، این نتیجه معیار ادعاهای مربوط به کالیبراسیون «آگاه از مسیریابی» را تغییر می‌دهد. طبق این تحلیل، بسیاری از پیشرفت‌های گزارش‌شده در تخمین عدم قطعیت، احتمالاً متغیرهای مزاحم ناشی از ظرفیت مدل هستند و نه بینش‌های واقعی از وضعیت داخلی مدل. بنابراین، متخصصان باید به هرگونه کالیبراسیون مبتنی بر مسیریابی که با کنترل‌های سخت‌گیرانه ظرفیت اعتبارسنجی نشده است، با شک نگاه کنند.

گام بعدی شما

در صورت استفاده از مدل‌های AR، نتایج کالیبراسیون خود را با یک مدل MLP با ظرفیت مشابه (Capacity-matched) مقایسه کنید تا اثر توهم ظرفیت را حذف کنید.
منتظر بمانید و ببینید آیا تیم کیمی برای رفع این ناپایداری‌ها، چارچوب‌های کنترلی جدیدی معرفی می‌کند یا خیر.
بررسی کنید که آیا ویژگی‌های مشتق‌شده از مسیریابی در مدل‌های پیشرو (Frontier Models) با مقیاس بزرگ‌تر، در برابر تست‌های کنترل ظرفیت دوام می‌آورند یا خیر.

اما تأثیر این یافته‌ها بر مدل‌های استدلالی بزرگ‌تر هنوز مبهم است — به بررسی ما درباره‌ی مدل‌های Reasoning مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پروب AR-CondCal (AR-CondCal probe) — یک پروب نادارایا-واتسون دو-بعدی که بر روی اطمینان و واریانس عمق مسیریابی تمرکز دارد — نتوانست به‌طور قابل‌اعتمادی خطای کالیبراسیون مورد انتظار (Expected Calibration Error یا ECE) را در بدترین وضعیت‌های مسیریابی بهبود بخشد.
در میان ۳۰ تست جایگشت (Permutation Tests) داخلی، تنها ۱ مورد توانست فرض صفر شرطی را در سطح $\alpha=0.05$ رد کند و این نتیجه در بیدرهای (Seeds) مختلف پایدار نبود.
اگرچه یک MLP با بردار کامل روی پروفایل‌های مسیریابی در ابتدا بهتر از خط مبنای اطمینان عمل کرد، اما این برتری در مقایسه با یک MLP با ظرفیت مشابه که فقط از داده‌های اطمینان استفاده می‌کرد، کاملاً از بین رفت.

گام بعدی شما

در صورت استفاده از مدل‌های AR، نتایج کالیبراسیون خود را با یک مدل MLP با ظرفیت مشابه (Capacity-matched) مقایسه کنید تا اثر توهم ظرفیت را حذف کنید.
منتظر بمانید و ببینید آیا تیم کیمی برای رفع این ناپایداری‌ها، چارچوب‌های کنترلی جدیدی معرفی می‌کند یا خیر.
بررسی کنید که آیا ویژگی‌های مشتق‌شده از مسیریابی در مدل‌های پیشرو (Frontier Models) با مقیاس بزرگ‌تر، در برابر تست‌های کنترل ظرفیت دوام می‌آورند یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا کالیبراسیون مبتنی بر مسیریابی در ترنسفورمرها یک توهم ظرفیتی است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران