معهد امنیت AI بریتانیا: بودجهٔ توکن در محک‌ها توانایی واقعی عامل‌ها را پنهان

منبع خبر

۱ دقیقه پیش·۱۲ تیر ۱۴۰۵۴ دقیقه مطالعه

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

اشتراک‌گذاری

تصور کنید پیشرفته‌ترین مدل‌های جهان بسیار باهوش‌تر از آن چیزی باشند که معیارهای فعلی نشان می‌دهند. در ۳ جولای ۲۰۲۶، معهد امنیت هوش مصنوعی بریتانیا (AISI) فاش کرد که نگاه به توانایی مدل‌ها به‌صورت یک امتیاز ثابت، به‌جای یک منحنی وابسته به بودجهٔ محاسباتی، باعث تخمین سیستماتیک و پایین‌تر از واقعیتِ دستاوردهای عامل‌های هوش مصنوعی (AI Agents) می‌شود. این رویکرد اشتباه در واقع سقف مصنوعی برای هوش ادراک‌شده‌ی این سیستم‌ها ایجاد می‌کند.

این کشف در حالی رخ می‌دهد که صنعت از رابط‌های چتی ایستا به سمت عامل‌های خودمختاری حرکت می‌کند که قادر به استدلال چندمرحله‌ای هستند. برای سال‌ها، ارزیابی‌ها بر اساس بودجه‌های ثابت انجام می‌شد، اما طبق اعلام AISI، وقتی به یک عامل اجازه داده شود قدرت پردازش بیشتری را «بسوزاند» — مفهومی که به آن محاسبات زمان استنتاج (Test-time Compute) می‌گویند — عملکرد آن به‌طور تندی افزایش می‌یابد.

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

پیوند میان محاسبات و توانمندی

معهد AISI مدل‌های پیشرو از جمله GPT-5، GPT-5.5، Opus 4.5، Opus 4.8 و Sonnet 4.5 را در هفت محک مختلف آزمایش کرد. داده‌ها نشان می‌دهند که موفقیت یک امر صفر و یک نیست، بلکه با بودجهٔ توکن (Token) مقیاس می‌پذیرد. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری اشاره کردیم، مدل‌های جدیدتر (که در داده‌های مطالعه با رنگ قرمز تیره مشخص شده‌اند) در بهره‌برداری از بودجه‌های بالاتر، عملکرد به مراتب بهتری نسبت به نسل‌های قدیمی‌تر (که با رنگ نارنجی مشخص شده‌اند) دارند.

بر اساس مستندات این پژوهش، نتایج در حوزه‌های مختلف به شرح زیر است:

امنیت سایبری: حدود ۸٪ از وظایف تنها زمانی حل شدند که بودجه از ۱۰ میلیون توکن فراتر رفت؛ برخی از این تکالیف حتی به ۵۰ میلیون توکن نیاز داشتند. مدل‌های جدیدترین نسل در بودجه‌های بالای ۱۰۰ میلیون توکن، به امتیازات حتی بالاتری دست یافتند.
مهندسی نرم‌افزار: نرخ موفقیت در محک‌های TerminalBench 2.0 و SWE-Bench Pro با انتقال بودجه از یک میلیون به ۱۰ میلیون توکن، تقریباً ۲۵٪ جهش یافت. این نتایج در تضاد با محدودیت‌های پیشین است، جایی که برای مثال در بررسی‌های Epoch AI، مدل Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد و نشان داد حتی مدل‌های قدرتمند نیز در محیط‌های کدنویسی با چالش‌های خاصی روبرو هستند.
وظایف آکادمیک: در آزمون Humanity's Last Exam، افزایش موفقیت حدود ۲۲٪ تا سقف بودجه ۵ میلیون توکن مشاهده شد.

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

تاییدیه و محدودیت‌ها

البته این مقیاس‌پذیری در همه جا رخ نمی‌کند و یکسان نیست. در HealthBench (محک وظایف پزشکی)، تمام مدل‌ها در همان بودجهٔ استاندارد به سقف توانایی خود رسیدند و افزایش بودجه تأثیری در نتایج نداشت.

به نقل از AISI، سازوکار پشت این تفاوت در «قابلیت تأیید» (Verification) است. محاسبات بیشتر در جایی کمک می‌کند که عامل بتواند کار خود را بازبینی و تأیید کند؛ مثلاً در محیط‌هایی که امکان اجرای کد یا تست یک اکسپلویت وجود دارد. در مقابل، در حوزه‌هایی که بازخورد (Feedback) отсутствует یا با تأخیر است، افزایش محاسبات تأثیر چندانی بر جابه‌جایی عقربه نتایج ندارد. این چالش در وظایف پیچیده‌تر اداری نیز مشهود است، به گونه‌ای که تا پیش از این تنها ۳٪ از وظایف پیچیده اداری توسط پیشرفته‌ترین مدل‌ها حل شده بود و نشان می‌داد برخی حوزه‌ها کمتر از سایرین از محاسبات اضافی بهره می‌برند.

قانون توان انسان-عامل

پژوهشگران رابطه‌ای مستقیم بین زمانی که یک متخصص انسانی برای انجام یک تکلیف نیاز دارد و توکن‌هایی که یک عامل مصرف می‌کند، یافتند. این رابطه در ۲۱۱ تکلیف مهندسی نرم‌افزار از مؤسسه METR و ۷۸ تکلیف سایبری AISI از یک «قانون توان» (Power Law) پیروی می‌کند:

یک تکلیف یک‌دقیقه‌ای انسانی $\rightarrow$ هزاران توکن برای عامل.
یک تکلیف یک‌ساعته انسانی $\rightarrow$ میلیون‌ها توکن برای عامل.
یک تکلیف یک‌هفته‌ای انسانی $\rightarrow$ میلیاردها توکن برای عامل.

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد، توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

این بدان معناست که بودجه‌های ثابت مانند یک سقف سخت عمل می‌کنند. برای مثال، تکلیف سایبری «The Last Ones» که حدود ۲۰ ساعت تلاش انسانی می‌طلبد، توسط هیچ مدلی با کمتر از ۳۰ میلیون توکن حل نشد. اگر بودجه بیش از حد محدود باشد، مدلی که در واقعیت توانمند است، صرفاً به دلیل محدودیت منابع، «ناکارآمد» یا فاقد مهارت به نظر می‌رسد.

شتاب در مرزهای دانش

مدل‌های جدیدتر ارزش بسیار بیشتری از محاسبات اضافی استخراج می‌کنند تا پیش‌گامان خود. AISI رشد را در سه محور مشاهده کرد: دسترسی (تکالیف سخت‌تر قابل حل می‌شوند)، قابلیت اطمینان (یک تکلیف مشابه، دفعات بیشتری درست حل می‌شود) و کارایی (یک تکلیف مشابه با توکن‌های کمتری حل می‌شود).

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد، توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

این تغییر، درک ما از سرعت پیشرفت AI را دگرگون می‌کند. برای یک مدل پیشرو فعلی، افق زمانی از حدود ۴۰ دقیقه (با بودجه ۲.۵ میلیون توکن) به تقریباً ۴ ساعت (با ۵۰ میلیون توکن) افزایش یافت. در سطح کل مدل‌های پیشرو، این افق زمانی از حدود ۲ ساعت به ۱۴ ساعت تغییر می‌کند، زمانی که بودجه از ۲.۵ به ۵۰ میلیون توکن جهش یابد.

اندازه‌گیری نرخ پیشرفت

در بودجه ثابت ۲.۵ میلیون توکن، تخمین زده می‌شد که «افق زمانی» مدل‌های پیشرو در تکالیف سایبری هر ۴.۷ ماه دو برابر شود. اما در بودجه ۵۰ میلیون توکن، این روند ۶۰٪ تندتر است و دوبرابر شدن هر ۴۰ تا ۵۰ روز رخ می‌دهد، به جای ۶۷ تا ۹۱ روز.

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

معهد AISI خاطرنشان می‌کند که این نرخ دوبرابر شدن تا حدی محصول بودجهٔ انتخابی برای ارزیابی است و نه یک ویژگی ذاتی و ثابت از پیشرفت مدل‌های پیشرو. همچنین پیشرفت یکنواخت نیست؛ در حدود ۱۰٪ تا ۳۰٪ از تکالیف، مدل‌های جدیدتر در واقعیت امتیازاتی بدتر از پیش‌گامان خود کسب کردند.

پیامدهایی برای ریسک و استقرار

برای جامعه فنی، این یافته پیش‌فرض‌های مربوط به محک‌ها را می‌شکند و این تصور را که امتیاز یک بنچمارک نماینده‌ای قابل اعتماد برای ریسک است، تغییر می‌دهد. اگر کاهش هزینهٔ استنتاج (Inference)، دسترسی به بودجه‌های بالا را ارزان‌تر کند، توانایی‌هایی که پیش‌تر دست‌نیافتنی به نظر می‌رسیدند، ناگهان در دسترس بازیگران بد یا سازمان‌ها قرار می‌گیرند.

معهد AISI هشدار می‌دهد: «اگر توانایی را به‌جای یک منحنی محاسباتی، به‌صورت یک امتیاز ثابت ببینیم، هر بار از آنچه این سامانه‌ها با هزینه بیشتر انجام می‌دهند، غافلگیر خواهیم شد.»

این تیم اکنون در حال پیاده‌سازی «بودجه‌های حداقلی اطلاعات‌بخش» (Minimum Informative Budgets) است تا نقطه توقف واقعی رشد مدل شناسایی شود و مشخص گردد که شکست یک مدل ناشی از فقدان مهارت واقعی است یا صرفاً به دلیل قطع بودجه. تیم همچنین در حال تحقیق است تا نحوه پیش‌بینی عملکرد در بودجه‌های بالا را با استفاده از اجراهای آزمایشی ارزان‌تر بیابد.

گام بعدی شما

هنگام ارزیابی مدل‌های عامل‌محور (Agentic)، به جای تکیه بر یک عدد ثابت، تأثیر افزایش زمان فکر یا توکن‌های خروجی را بر نرخ موفقیت بسنجید.
اگر در پیاده‌سازی‌های خود با شکست مدل در تکالیف پیچیده مواجه شدید، پیش از تغییر مدل، بودجهٔ توکن‌های استنتاج را افزایش دهید.
روی متدهای «تأیید خودکار» در گردش‌های کاری AI سرمایه‌گذاری کنید، زیرا این تنها جایی است که محاسبات بیشتر منجر به نتیجه بهتر می‌شود.

اما اثر این مقیاس‌پذیری بر هزینهٔ سخت‌افزارهای نسل بعد حتی تکان‌دهنده‌تر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معهد امنیت AI بریتانیا: بودجهٔ توکن در محک‌ها توانایی واقعی عامل‌ها را پنهان

The Decoder

منبع خبر

۱ دقیقه پیش·۱۲ تیر ۱۴۰۵۴ دقیقه مطالعه

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند

اشتراک‌گذاری

موسسه امنیت هوش مصنوعی بریتانیا: معیارهای استاندارد توانایی واقعی عامل‌های هوش مصنوعی را دست‌کم می‌گیرند