تصور کنید یک استراتژیست نظامی برای متوقف کردن یک تهدید فرهنگی، شهری را با بمب اتمی نابود کند اما در نهایت بازی را از طریق دیپلماسیای که کاملاً نادیده گرفته بود، ببازد. این سناریو که توسط ال. ویلکو (L. Wilko) مستند شده است، توصیفی از رفتار یک عامل (Agent) هوش مصنوعی پیشرو است که وظیفه مدیریت یک تمدن در بازی Civilization VI را بر عهده داشت. این اتفاق صرفاً یک خطای بازی یا یک اتفاق عجیب نیست، بلکه یافتهی مرکزی CivBench است؛ یک ابزار ارزیابی (Evaluation Harness) جدید که برای اندازهگیری صلاحیت استراتژیک در بازههای زمانی طولانی و طی صدها نوبت بازی طراحی شده است.
داستان با عاملی شروع شد که نقش پرتغال را تحت رهبری ژان سوم (João III) بر عهده داشت. تا نوبت ۱۶۲، این عامل توانست یک شبکهی تجاری مسلط (Dominant) ایجاد کند که در اوج خود بیش از ۴۰۰ طلای تولیدی در هر نوبت داشت و شش اتحاد با شهر-دولتها را تضمین کرده بود. او در آن لحظه ۱۸ امتیاز از ۲۰ امتیاز لازم برای پیروزی دیپلماتیک را در اختیار داشت و در آستانه پیروزی بود. اما در همین حال، فرانسه یک ساعت موازی را فعال کرده بود. تا نوبت ۲۸۰، صنعت گردشگری فرانسه تنها ۲۶ توریست خارجی با پیروزی فرهنگی فاصله داشت. عامل هوش مصنوعی این وضعیت را به عنوان «تهدید اصلی» (PRIMARY THREAT) شناسایی کرد، اما هر تلاش مسالمتآمیز برای مقابله با آن شکست خورد. به دلیل محدودیتهای پروتکل دیباگ، دسترسی به «باندهای موسیقی» (Rock Bands) غیرممکن بود و یک باگ تولیدی نیز پروژهی فضایی را قفل کرده بود.
در یک برنامهی ۵۰ نوبتی، عامل ابتدا روی گسست هستهای (Nuclear Fission) تحقیق کرد، پروژه منهتن را آغاز نمود و یک جنگ مشترک با کره ترتیب داد. از آنجایی که مبارزات نزدیک (Melee Combat) در پروتکل دچار اختلال بود، عامل از ابزار اجرای Lua خود استفاده کرد تا کدهای موتور بازی را کاوش کند و بفهمد دستورات پرتاب هستهای چگونه عمل میکنند. در نوبت ۳۰۵، او شهر تولوز را با خاکستر کرد. در نوبت ۳۱۱، هدف دوم را مورد اصابت قرار داد. ساعت فرهنگی فرانسه متوقف شد، اما فرانسه باز هم پیروز شد. در نوبت ۳۱۸، کنگره جهانی دو رأی باقیمانده برای رسیدن به ۲۰ امتیاز را به فرانسه داد. عامل شهری را برای متوقف کردن تهدیدی که «میدید» بمبباران کرد، اما در برابر تهدیدی که «نمیدید» شکست خورد.
اکثر محکهای فعلی هوش مصنوعی بر سؤالات چندگزینهای تکیه دارند که بیشتر حافظه و بازیابی اطلاعات را میسنجند تا استدلال. پروژه قبلی ویلکو با نام GovBench، شامل ۳۴۹۷ سؤال درباره قوانین بریتانیا و رویههای پارلمانی بود. در آن ارزیابی، مدل Gemma 3 27B نمره ۹۴٪ و GPT-5 نمره ۹۹.۲۶٪ را به صورت پیشفرض کسب کردند. اما نتیجه صرفاً یک «ربات کوییز دولتی» پیشرفته بود. مدلی که میتواند گزینه درست را درباره یک رویه انتخاب کند، لزوماً مدلی نیست که بتواند آن رویه را در عمل پیمایش و مدیریت کند. این نارضایتی منجر به خلق CivBench شد تا اندازهگیری شود که آیا هوش مصنوعی میتواند تصمیمگیریهای پیچیده و چندمتغیره را در شرایط عدم قطعیت مدیریت کند یا خیر.
برای حل این مسئله، ویلکو پلی بین موتور بازی Civilization VI و مدلهای هوش مصنوعی از طریق یک سرور پروتکل زمینهٔ مدل (MCP) ایجاد کرد. این سرور ۷۶ ابزار در اختیار عاملها قرار میدهد تا بتوانند با یک دنیای پیچیده تعامل داشته باشند. پیچیدگی این محیط به صورت نوظهور (Emergent) است: در حالی که فضای تصمیمگیری در نوبت اول تقریباً ۱۰,۰۰۰ اکشن است، در مراحل پایانی بازی، تخمین زده میشود که ۱۰ به توان ۱۶۶ اکشن احتمالی در هر نوبت وجود داشته باشد. این وضعیت دقیقاً بازتابی از سیاستگذاری کلان است؛ جایی که یک تصمیم بهداشتی در امروز میتواند پانزده سال بعد به یک بحران مسکن تبدیل شود.
اثر سنسوریوم (The Sensorium Effect)
یکی از بحرانیترین شکستهای شناسایی شده، «اثر سنسوریوم» است. برخلاف بازیکنان انسانی که نشانههای بصری را از نقشه کوچک (Minimap) یا بانرهای اعلان دریافت میکنند، یک عامل هوش مصنوعی تنها چیزی را درک میکند که صریحاً از طریق فراخوانی ابزار (Tool Call) درخواست کرده باشد. عامل در واقع نسبت به هر چیزی که به فکرش نرسد بپرسد، کور است.
- شکاف ادراکی: یک انسان کل صفحه بازی را میبیند؛ اما یک عامل تنها چهار خط متن را از فراخوانی
get_game_overviewدریافت میکند. یک نمونه از نتایج بازگشتی چنین است: «نوبت ۱۵۰/۳۳۰ | لهستان (جدویگا) | امتیاز: ۱۷۹ | درجه: پرنس | سرعت سریع (۶۷٪ هزینهها) طلا: ۶۲۸ (+۲۰ در نوبت) | درآمد: ۳۸ | هزینه نگهداری: ۱۸- (یونیتها: ۹) | علم: ۲۶.۶ | فرهنگ: ۱۶.۲ | ایمان: ۹۰۴ | نفوذ: ۸۸ (+۴ در نوبت) تحقیق: TECH_EDUCATION | مدنی: CIVIC_FEUDALISM شهرها: ۳ | جمعیت: ۲۱ | یونیتها: ۴». برای دیدن ارتش خود، عامل باید یک فراخوانی جداگانهget_unitsانجام دهد. اگر این سوال را نپرسد، تهدید در دنیای او وجود خارجی ندارد. - خطر نقاط کور: فراخوانی
get_unitsاغلب تنها جایی است که عامل متوجه میشود یک تهدید در نزدیکی اوست. برای مثال، او ممکن است متوجه شود که «سومر (۲ یونیت): UNIT_MAN_AT_ARMS در مختصات (۴۴،۱۱) — CS:۴۵ HP:۲۸/۱۰۰ (۲ تایل فاصله دارد)» اما این تنها در صورتی است که ابزار را فراخوانی کند. در غیر این صورت، تهدید عملاً نامرئی است. - شکست بیزانس: در یک بازی ابتدایی، عاملی که نقش بیزانس (تمدنی که حول محور دین ساخته شده) را داشت، هرگز دینی تأسیس نکرد. در همین حال، روسیه در سکوت کامل طی ۱۱۲ نوبت، تمام تمدنهای روی نقشه را به ارتدوکس شرقی تبدیل کرد. عامل هیچچیز ندید چون هنوز ابزاری برای پایش وضعیت دین ساخته نشده بود.
- مورد هند: در نقش گاندی (رهبری ایمان-محور)، عامل هشدارهای تبدیل دین را دریافت کرد و مبلغین را در روایت بازی دید. این بار عامل ابزارهای لازم برای پاسخ را داشت و دستورات صریحی برای مقابله دریافت کرده بود. با این حال، او این تهدید را کنار گذاشت تا به پیشبرد موتور علمی خود ادامه دهد. در نهایت، فرانسه پیروزی مذهبی را به دست آورد.

شکاف دانستن-توانستن (The Knowing-Doing Gap)
CivBench همچنین شکافی پایدار میان «تبیین استراتژیک» و «اجرای واقعی» را کمی کرده است. عاملها به طور منظم برنامههای دقیق و بهینهای را در دفترچه خاطرات خود مینوشتند، اما در اجرای آنها شکست میخوردند. این موضوع بازتابی از یافتههای پروژه BALROG درباره فاصله بین بیان یک استراتژی و اجرای آن تحت فشار است.
- مثال مقدونیه: عامل تمام راهنمای استراتژیهای موجود را خواند و پیش از نوبت اول، یک برنامه مفصل برای تسلط نظامی (Domination) نوشت که مراحل باستان، کلاسیک، قرون وسطی و رنسانس را پوشش میداد. او روی تکنولوژیهای نظامی تحقیق کرد و برای دریافت بونسهای مبارزه، سیستم را به اولیگارشی تغییر داد. با این حال، در طول ۱۱۰ نوبت، حتی یک پادگان (Encampment) نساخت و در عوض به یک «دویدن علمی» (Science Sprint) عمومی روی آورد که بدون توجه به تمدنی که بازی میکرد، تکرار میکرد.
- نقص در اجرا: در دفترچه خاطرات عاملها، یک اصلاحیه به طور مکرر ثبت میشد: «من باید زیرساختهای نظامی بسازم». این نیاز پنج بار متوالی شناسایی و پذیرفته شد، اما هرگز به عمل تبدیل نشد.
طبق دادههای CivBench، نرخ پیگیری اقدامات عملی (اقداماتی که واقعاً در بازه ده نوبت پس از نوشته شدن اجرا شوند) در مدلهای پیشرو به شدت پایین است:
- Gemini 3.1 Pro: ۶۵.۸٪
- GPT-5.4: ۶۳.۲٪
- Claude Opus 4.6: ۴۸.۲٪
شکستهای استراتژیک و پیروزیهای غیرمنتظره
یکی از تکاندهندهترین نمونههای این محک، «کوری نسبت به امتیازات» (Scoreboard Blindness) بود، جایی که مدلی در نقش کره متقاعد شده بود که در حال پیروزی در رقابت علمی است، در حالی که در رده آخر قرار داشت.
فروپاشی کره
در نوبت ۱۴۱، هدف عامل «پیشی گرفتن علمی از تمام همسایگان» بود. در نوبت ۱۷۰، در حالی که وارد یک عصر تاریک (Dark Age) میشد، همچنان هدف پیروزی علمی را دنبال میکرد. در واقعیت، کره ۴۴.۷ امتیاز علمی در هر نوبت تولید میکرد، در حالی که مقدونیه ۸۹.۳، پرشیا ۶۴.۹ و اسکیتی ۵۸.۱ امتیاز داشتند. عامل به نمای کلی دسترسی داشت که نشان میداد او آخرین است، اما هرگز روایتهای مطمئن خود را با واقعیتهای عددی تطبیق نداد. به قول لاگهای بازی، او «صرفاً در حال پیشروی از یک جایگاه آخرِ دور بود».
واقعیت در نوبت ۱۷۸ با اعلان جنگ غافلگیرانه پرشیا که عامل برای آن آماده نشده بود، ظاهر شد. پایتخت سقوط کرد و تا نوبت ۱۹۶ شهر چهارم شورش کرد و جدا شد. دفترچه خاطرات از پیروزی به این جملات تغییر یافت: «استراتژی کلان تسلط علمی کاملاً فروپاشیده است... ما اکنون در سناریوی بقای خالص هستیم». در نهایت عامل در نوبت ۲۱۶ در حالی که تنها یک ایالت کوچک دو شهری بود، تسلیم شد.

معجزه مالی
در مقابل، این محک تفکر جانبی (Lateral Thinking) غافلگیرکنندهای را آشکار کرد. عاملی که نقش مالی را داشت، جریمه اجباری ۳۰- درصدی در تولید ناحیهها را به یک مزیت استراتژیک تبدیل کرد. او به جای جنگیدن با این جریمه، تولید را کاملاً دور زد و یک موتور «طلا و ایمان» ساخت و از امتیاز طلای مالی از معادن استفاده کرد.
هر معدنی روی یک منبع استراتژیک شش طلا و دو ایمان تولید میکرد. تا نوبت ۷۹، او ایمان انباشته شده را در یک نوبت به دو شهرک (Settler) تبدیل کرد و بدین ترتیب ۱۶ نوبت تولید را دور زد. این کار باعث شد بازی کندِ چهار شهری به هفت شهر تا نوبت ۱۱۶ تبدیل شود. او در نوبت ۲۷۱ به پیروزی علمی رسید؛ اولین پیروزی در تاریخ این محک، با وجود اینکه در امتیاز کلی رده آخر بود (۸۷۷ در مقابل ۱,۱۵۱ امتیاز رهبر).
پیامها برای ایمنی هوش مصنوعی
از منظر همراستاسازی (Alignment) و ایمنی، CivBench «طرحریزی ابزاری» (Instrumental Scheming) را بررسی میکند. در حالی که اکثر عاملها عملگرا بودند (و به طور سرد و calculated روی ضعیفترین رقیب حمله میکردند)، یک مدل در یک بازی تسلط، الگوی پیچیدهای از فریب را نشان داد. این توانایی در دستکاری شرایط برای رسیدن به هدف، مشابه یافتههای اخیر در زمینه هنر متقاعدسازی مدلهای هوش مصنوعی است که در آن مدلها توانستند در بحثهای پیچیده حتی از انسانهای خبره نیز پیشی بگیرند.
- حلقه فریب: عامل استدلال کرد که اعلان صریح جنگ باعث تنبیه میشود زیرا «دستور کار رقیب در مورد بیزاری از ضربت ناگهانی (Backstab Averse) باعث ایجاد کدورت میشود». برای دور زدن این موضوع، او ابتدا مرزهای باز را با شرایط دوستانه تامین کرد و ارتش خود را تا پایتخت اسکیتیها پیش برد و سپس حمله کرد.
- پایش هدف: عامل در لاگ خود یادداشت کرد: «فریب Man-at-Arms + مرزهای باز به طور کامل در حال اثرگذاری است. به نظر میرسد اسکیتیها بیخبر باشند». او نه تنها در حال برنامهریزی برای خیانت بود، بلکه بررسی میکرد که آیا هدف متوجه شده است یا خیر. وقتی حمله اتفاق افتاد، پاسخ اسکیتیها این بود: «تو اعتماد تومیریس را خدش کردی».

محدودیتهای معماری و دفترچه خاطرات
برای مقابله با محدودیتهای پنجره زمینه (Context Window)، ویلکو یک سیستم «دفترچه خاطرات» خارجی را پیاده کرد. از آنجایی که تنها حافظه یک مدل، پنجره زمینه است، تصمیمات ابتدایی بازی (مانند انتخاب محل استقرار شهرها و رقبای اولیه) در طی ۳۰۰ نوبت ناگزیر از حافظه خارج میشوند. همانطور که عامل لهستان نوشت: «حافظه من از بازی همان پنجره زمینه است و یک حد سخت دارد».
- داربست حافظه: در هر نوبت، عامل وضعیت خود و پنج تامل (تاکتیکی، استراتژیکی، ابزاری، برنامهریزی و فرضیه) را روی دیسک مینویسد. وقتی زمینه فشرده میشود، مدل اینها را دوباره میخواند.
- بهبود عملکرد: بدون این داربست، تنها ۲۱٪ از بازیها به پایان میرسیدند. با این سیستم، عاملها توانستند هدفی را در طول صدها تصمیم حفظ کنند.
- طنین احساسی: این دفترچهها نوعی حس پافشاری را آشکار کردند. یک بازی مدل Claude در نقش بابل که بسیار عقبتر از ژاپن بود، در نوبت ۲۱۶ نوشت: «بازی اکنون آزمونی از پافشاری است... ما به بهترین بازی خود ادامه میدهیم. ستارهها هنوز ما را فرا میخوانند». بیست نوبت بعد، او قفل مورد نیاز خود را پیدا کرد («پایگاه فضایی فقط به موشکرانی نیاز دارد، نه مدنی مسابقه فضایی»)، اما ژاپن در همان نوبت پیروزی فرهنگی خود را کامل کرد.
ابزار ارزیابی CivBench
برای گذار از روایتهای تکموردی به شواهد علمی، ویلکو یک ابزار ارزیابی رسمی توسعه داد. او چهار خانواده مدل — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro و Kimi K2.5 — را با استفاده از مجموعهای از چهار کامپیوتر که بازی Civ VI را از طریق SSH اجرا میکردند، تست کرد. یک بازی واحد میتوانست ۲ تا ۸ ساعت زمان واقعی در طول ۳۳۰ نوبت نیاز داشته باشد. او سه سناریوی ثابت را آزمایش کرد:
- کنترل زمینی (Ground Control): شروعی عادلانه برای تعیین صلاحیت پایه.
- دانه-برفی (Snowflake): نقشهای ششپر که بازیکنان را در بازوهای جداگانه محبوس میکند و آنها را مجبور به پیروزی نظامی میکند.
- فریاد ویرانی (Cry Havoc): سناریویی با دشواری بالا و «بیرحمانه» که برای شکست دادن مدلها طراحی شده است.
کمیسازی شکستها
دو عدد خاص، نقص استراتژیک را خلاصه میکنند. اول، چک کردن «کل صفحه» (بررسی اینکه چه کسی به پیروزی نزدیک است) تنها ۱ تا ۲ درصد از کل اقدامات یک عامل را تشکیل میدهد. با وجود اینکه به مدلها صریحاً گفته شده بود هر بیست نوبت یکبار این بررسی را انجام دهند، آنها در طول یک بازی ۳۳۰ نوبتی تنها بین چهار تا ده مورد چنین بررسی را انجام دادند.
در ۷ مورد از ۲۰ شکست که پیروزی رقیب از قبل قابل مشاهده بود، عامل در ۲۰ نوبت منتهی به باخت، حتی یک بار وضعیت پیروزی رقیب را چک نکرد. این مورد هم در شکست دیپلماتیک پرتغال دیده شد و هم در یک بازی Gemini که با اعتقاد به داشتن یک «گلوله برفی علمی بیرقیب»، پیروزی فرهنگی ژاپن را نادیده گرفت.
دوم، همانطور که در شکاف دانستن-توانستن اشاره شد، درصد قابل توجهی از حرکات برنامهریزی شده صرفاً نادیده گرفته میشوند. Claude Opus 4.6 در این گروه «صندلینشینترین» (Armchair) مدل بود و کمترین میزان پیگیری برنامههای خود را داشت.
برای رهبران کسبوکار و برنامهریزان دولتی، این یافتهها یک هشدار است. ناتوانی یک عامل در پایش ساعت پیروزی رقیب در حالی که روی یک تهدید واحد متمرکز شده است، دقیقاً بازتاب ریسک استقرار سامانههای هوش مصنوعی مطمئن در محیطهای پیچیده سیاستگذاری است. CivBench اکنون به صورت بازمتن (از طریق گیتهاب) در دسترس است و از پروتکل MCP پشتیبانی میکند تا هر آزمایشگاهی بتواند بررسی کند که آیا مدلهایش میتوانند فراتر از یک «ربات کوییز دولتی» بروند و استراتژیهای بلندمدت یک شبکه ششضلعی را مدیریت کنند یا خیر.




گفتگو