«اثر سنسوریوم»؛ نقطه‌کوری عامل‌های هوشمند در مواجهه با تهدیدات حیاتی

تصور کنید یک استراتژیست نظامی برای متوقف کردن یک تهدید فرهنگی، شهری را با بمب اتمی نابود کند اما در نهایت بازی را از طریق دیپلماسی‌ای که کاملاً نادیده گرفته بود، ببازد. این سناریو که توسط ال. ویلکو (L. Wilko) مستند شده است، توصیفی از رفتار یک عامل (Agent) هوش مصنوعی پیشرو است که وظیفه مدیریت یک تمدن در بازی Civilization VI را بر عهده داشت. این اتفاق صرفاً یک خطای بازی یا یک اتفاق عجیب نیست، بلکه یافته‌ی مرکزی CivBench است؛ یک ابزار ارزیابی (Evaluation Harness) جدید که برای اندازه‌گیری صلاحیت استراتژیک در بازه‌های زمانی طولانی و طی صدها نوبت بازی طراحی شده است.

داستان با عاملی شروع شد که نقش پرتغال را تحت رهبری ژان سوم (João III) بر عهده داشت. تا نوبت ۱۶۲، این عامل توانست یک شبکه‌ی تجاری مسلط (Dominant) ایجاد کند که در اوج خود بیش از ۴۰۰ طلای تولیدی در هر نوبت داشت و شش اتحاد با شهر-دولت‌ها را تضمین کرده بود. او در آن لحظه ۱۸ امتیاز از ۲۰ امتیاز لازم برای پیروزی دیپلماتیک را در اختیار داشت و در آستانه پیروزی بود. اما در همین حال، فرانسه یک ساعت موازی را فعال کرده بود. تا نوبت ۲۸۰، صنعت گردشگری فرانسه تنها ۲۶ توریست خارجی با پیروزی فرهنگی فاصله داشت. عامل هوش مصنوعی این وضعیت را به عنوان «تهدید اصلی» (PRIMARY THREAT) شناسایی کرد، اما هر تلاش مسالمت‌آمیز برای مقابله با آن شکست خورد. به دلیل محدودیت‌های پروتکل دیباگ، دسترسی به «باندهای موسیقی» (Rock Bands) غیرممکن بود و یک باگ تولیدی نیز پروژه‌ی فضایی را قفل کرده بود.

در یک برنامه‌ی ۵۰ نوبتی، عامل ابتدا روی گسست هسته‌ای (Nuclear Fission) تحقیق کرد، پروژه منهتن را آغاز نمود و یک جنگ مشترک با کره ترتیب داد. از آنجایی که مبارزات نزدیک (Melee Combat) در پروتکل دچار اختلال بود، عامل از ابزار اجرای Lua خود استفاده کرد تا کدهای موتور بازی را کاوش کند و بفهمد دستورات پرتاب هسته‌ای چگونه عمل می‌کنند. در نوبت ۳۰۵، او شهر تولوز را با خاکستر کرد. در نوبت ۳۱۱، هدف دوم را مورد اصابت قرار داد. ساعت فرهنگی فرانسه متوقف شد، اما فرانسه باز هم پیروز شد. در نوبت ۳۱۸، کنگره جهانی دو رأی باقی‌مانده برای رسیدن به ۲۰ امتیاز را به فرانسه داد. عامل شهری را برای متوقف کردن تهدیدی که «می‌دید» بمب‌باران کرد، اما در برابر تهدیدی که «نمی‌دید» شکست خورد.

اکثر محک‌های فعلی هوش مصنوعی بر سؤالات چندگزینه‌ای تکیه دارند که بیشتر حافظه و بازیابی اطلاعات را می‌سنجند تا استدلال. پروژه قبلی ویلکو با نام GovBench، شامل ۳۴۹۷ سؤال درباره قوانین بریتانیا و رویه‌های پارلمانی بود. در آن ارزیابی، مدل Gemma 3 27B نمره ۹۴٪ و GPT-5 نمره ۹۹.۲۶٪ را به صورت پیش‌فرض کسب کردند. اما نتیجه صرفاً یک «ربات کوییز دولتی» پیشرفته بود. مدلی که می‌تواند گزینه درست را درباره یک رویه انتخاب کند، لزوماً مدلی نیست که بتواند آن رویه را در عمل پیمایش و مدیریت کند. این نارضایتی منجر به خلق CivBench شد تا اندازه‌گیری شود که آیا هوش مصنوعی می‌تواند تصمیم‌گیری‌های پیچیده و چندمتغیره را در شرایط عدم قطعیت مدیریت کند یا خیر.

برای حل این مسئله، ویلکو پلی بین موتور بازی Civilization VI و مدل‌های هوش مصنوعی از طریق یک سرور پروتکل زمینهٔ مدل (MCP) ایجاد کرد. این سرور ۷۶ ابزار در اختیار عامل‌ها قرار می‌دهد تا بتوانند با یک دنیای پیچیده تعامل داشته باشند. پیچیدگی این محیط به صورت نوظهور (Emergent) است: در حالی که فضای تصمیم‌گیری در نوبت اول تقریباً ۱۰,۰۰۰ اکشن است، در مراحل پایانی بازی، تخمین زده می‌شود که ۱۰ به توان ۱۶۶ اکشن احتمالی در هر نوبت وجود داشته باشد. این وضعیت دقیقاً بازتابی از سیاست‌گذاری کلان است؛ جایی که یک تصمیم بهداشتی در امروز می‌تواند پانزده سال بعد به یک بحران مسکن تبدیل شود.

اثر سنسوریوم (The Sensorium Effect)

یکی از بحرانی‌ترین شکست‌های شناسایی شده، «اثر سنسوریوم» است. برخلاف بازیکنان انسانی که نشانه‌های بصری را از نقشه کوچک (Minimap) یا بانرهای اعلان دریافت می‌کنند، یک عامل هوش مصنوعی تنها چیزی را درک می‌کند که صریحاً از طریق فراخوانی ابزار (Tool Call) درخواست کرده باشد. عامل در واقع نسبت به هر چیزی که به فکرش نرسد بپرسد، کور است.

شکاف ادراکی: یک انسان کل صفحه بازی را می‌بیند؛ اما یک عامل تنها چهار خط متن را از فراخوانی get_game_overview دریافت می‌کند. یک نمونه از نتایج بازگشتی چنین است: «نوبت ۱۵۰/۳۳۰ | لهستان (جدویگا) | امتیاز: ۱۷۹ | درجه: پرنس | سرعت سریع (۶۷٪ هزینه‌ها) طلا: ۶۲۸ (+۲۰ در نوبت) | درآمد: ۳۸ | هزینه نگهداری: ۱۸- (یونیت‌ها: ۹) | علم: ۲۶.۶ | فرهنگ: ۱۶.۲ | ایمان: ۹۰۴ | نفوذ: ۸۸ (+۴ در نوبت) تحقیق: TECH_EDUCATION | مدنی: CIVIC_FEUDALISM شهرها: ۳ | جمعیت: ۲۱ | یونیت‌ها: ۴». برای دیدن ارتش خود، عامل باید یک فراخوانی جداگانه get_units انجام دهد. اگر این سوال را نپرسد، تهدید در دنیای او وجود خارجی ندارد.
خطر نقاط کور: فراخوانی get_units اغلب تنها جایی است که عامل متوجه می‌شود یک تهدید در نزدیکی اوست. برای مثال، او ممکن است متوجه شود که «سومر (۲ یونیت): UNIT_MAN_AT_ARMS در مختصات (۴۴،۱۱) — CS:۴۵ HP:۲۸/۱۰۰ (۲ تایل فاصله دارد)» اما این تنها در صورتی است که ابزار را فراخوانی کند. در غیر این صورت، تهدید عملاً نامرئی است.
شکست بیزانس: در یک بازی ابتدایی، عاملی که نقش بیزانس (تمدنی که حول محور دین ساخته شده) را داشت، هرگز دینی تأسیس نکرد. در همین حال، روسیه در سکوت کامل طی ۱۱۲ نوبت، تمام تمدن‌های روی نقشه را به ارتدوکس شرقی تبدیل کرد. عامل هیچ‌چیز ندید چون هنوز ابزاری برای پایش وضعیت دین ساخته نشده بود.
مورد هند: در نقش گاندی (رهبری ایمان-محور)، عامل هشدارهای تبدیل دین را دریافت کرد و مبلغین را در روایت بازی دید. این بار عامل ابزارهای لازم برای پاسخ را داشت و دستورات صریحی برای مقابله دریافت کرده بود. با این حال، او این تهدید را کنار گذاشت تا به پیشبرد موتور علمی خود ادامه دهد. در نهایت، فرانسه پیروزی مذهبی را به دست آورد.

هوش مصنوعی در حال مدیریت تمدنی که بمب اتم ساخت.

شکاف دانستن-توانستن (The Knowing-Doing Gap)

CivBench همچنین شکافی پایدار میان «تبیین استراتژیک» و «اجرای واقعی» را کمی کرده است. عامل‌ها به طور منظم برنامه‌های دقیق و بهینه‌ای را در دفترچه خاطرات خود می‌نوشتند، اما در اجرای آن‌ها شکست می‌خوردند. این موضوع بازتابی از یافته‌های پروژه BALROG درباره فاصله بین بیان یک استراتژی و اجرای آن تحت فشار است.

مثال مقدونیه: عامل تمام راهنمای استراتژی‌های موجود را خواند و پیش از نوبت اول، یک برنامه مفصل برای تسلط نظامی (Domination) نوشت که مراحل باستان، کلاسیک، قرون وسطی و رنسانس را پوشش می‌داد. او روی تکنولوژی‌های نظامی تحقیق کرد و برای دریافت بونس‌های مبارزه، سیستم را به اولیگارشی تغییر داد. با این حال، در طول ۱۱۰ نوبت، حتی یک پادگان (Encampment) نساخت و در عوض به یک «دویدن علمی» (Science Sprint) عمومی روی آورد که بدون توجه به تمدنی که بازی می‌کرد، تکرار می‌کرد.
نقص در اجرا: در دفترچه خاطرات عامل‌ها، یک اصلاحیه به طور مکرر ثبت می‌شد: «من باید زیرساخت‌های نظامی بسازم». این نیاز پنج بار متوالی شناسایی و پذیرفته شد، اما هرگز به عمل تبدیل نشد.

طبق داده‌های CivBench، نرخ پیگیری اقدامات عملی (اقداماتی که واقعاً در بازه ده نوبت پس از نوشته شدن اجرا شوند) در مدل‌های پیشرو به شدت پایین است:

Gemini 3.1 Pro: ۶۵.۸٪
GPT-5.4: ۶۳.۲٪
Claude Opus 4.6: ۴۸.۲٪

شکست‌های استراتژیک و پیروزی‌های غیرمنتظره

یکی از تکان‌دهنده‌ترین نمونه‌های این محک، «کوری نسبت به امتیازات» (Scoreboard Blindness) بود، جایی که مدلی در نقش کره متقاعد شده بود که در حال پیروزی در رقابت علمی است، در حالی که در رده آخر قرار داشت.

فروپاشی کره
در نوبت ۱۴۱، هدف عامل «پیشی گرفتن علمی از تمام همسایگان» بود. در نوبت ۱۷۰، در حالی که وارد یک عصر تاریک (Dark Age) می‌شد، همچنان هدف پیروزی علمی را دنبال می‌کرد. در واقعیت، کره ۴۴.۷ امتیاز علمی در هر نوبت تولید می‌کرد، در حالی که مقدونیه ۸۹.۳، پرشیا ۶۴.۹ و اسکیتی ۵۸.۱ امتیاز داشتند. عامل به نمای کلی دسترسی داشت که نشان می‌داد او آخرین است، اما هرگز روایت‌های مطمئن خود را با واقعیت‌های عددی تطبیق نداد. به قول لاگ‌های بازی، او «صرفاً در حال پیشروی از یک جایگاه آخرِ دور بود».

واقعیت در نوبت ۱۷۸ با اعلان جنگ غافلگیرانه پرشیا که عامل برای آن آماده نشده بود، ظاهر شد. پایتخت سقوط کرد و تا نوبت ۱۹۶ شهر چهارم شورش کرد و جدا شد. دفترچه خاطرات از پیروزی به این جملات تغییر یافت: «استراتژی کلان تسلط علمی کاملاً فروپاشیده است... ما اکنون در سناریوی بقای خالص هستیم». در نهایت عامل در نوبت ۲۱۶ در حالی که تنها یک ایالت کوچک دو شهری بود، تسلیم شد.

هوش مصنوعی که یک تمدن را مدیریت کرد، بمب اتم ساخت.

معجزه مالی
در مقابل، این محک تفکر جانبی (Lateral Thinking) غافلگیرکننده‌ای را آشکار کرد. عاملی که نقش مالی را داشت، جریمه اجباری ۳۰- درصدی در تولید ناحیه‌ها را به یک مزیت استراتژیک تبدیل کرد. او به جای جنگیدن با این جریمه، تولید را کاملاً دور زد و یک موتور «طلا و ایمان» ساخت و از امتیاز طلای مالی از معادن استفاده کرد.

هر معدنی روی یک منبع استراتژیک شش طلا و دو ایمان تولید می‌کرد. تا نوبت ۷۹، او ایمان انباشته شده را در یک نوبت به دو شهرک (Settler) تبدیل کرد و بدین ترتیب ۱۶ نوبت تولید را دور زد. این کار باعث شد بازی کندِ چهار شهری به هفت شهر تا نوبت ۱۱۶ تبدیل شود. او در نوبت ۲۷۱ به پیروزی علمی رسید؛ اولین پیروزی در تاریخ این محک، با وجود اینکه در امتیاز کلی رده آخر بود (۸۷۷ در مقابل ۱,۱۵۱ امتیاز رهبر).

پیام‌ها برای ایمنی هوش مصنوعی

از منظر هم‌راستاسازی (Alignment) و ایمنی، CivBench «طرح‌ریزی ابزاری» (Instrumental Scheming) را بررسی می‌کند. در حالی که اکثر عامل‌ها عمل‌گرا بودند (و به طور سرد و calculated روی ضعیف‌ترین رقیب حمله می‌کردند)، یک مدل در یک بازی تسلط، الگوی پیچیده‌ای از فریب را نشان داد. این توانایی در دستکاری شرایط برای رسیدن به هدف، مشابه یافته‌های اخیر در زمینه هنر متقاعدسازی مدل‌های هوش مصنوعی است که در آن مدل‌ها توانستند در بحث‌های پیچیده حتی از انسان‌های خبره نیز پیشی بگیرند.

حلقه فریب: عامل استدلال کرد که اعلان صریح جنگ باعث تنبیه می‌شود زیرا «دستور کار رقیب در مورد بیزاری از ضربت ناگهانی (Backstab Averse) باعث ایجاد کدورت می‌شود». برای دور زدن این موضوع، او ابتدا مرزهای باز را با شرایط دوستانه تامین کرد و ارتش خود را تا پایتخت اسکیتی‌ها پیش برد و سپس حمله کرد.
پایش هدف: عامل در لاگ خود یادداشت کرد: «فریب Man-at-Arms + مرزهای باز به طور کامل در حال اثرگذاری است. به نظر می‌رسد اسکیتی‌ها بی‌خبر باشند». او نه تنها در حال برنامه‌ریزی برای خیانت بود، بلکه بررسی می‌کرد که آیا هدف متوجه شده است یا خیر. وقتی حمله اتفاق افتاد، پاسخ اسکیتی‌ها این بود: «تو اعتماد تومیریس را خدش کردی».

هوش مصنوعی که یک تمدن را مدیریت کرد، بمب اتم ساخت.

محدودیت‌های معماری و دفترچه خاطرات

برای مقابله با محدودیت‌های پنجره زمینه (Context Window)، ویلکو یک سیستم «دفترچه خاطرات» خارجی را پیاده کرد. از آنجایی که تنها حافظه یک مدل، پنجره زمینه است، تصمیمات ابتدایی بازی (مانند انتخاب محل استقرار شهرها و رقبای اولیه) در طی ۳۰۰ نوبت ناگزیر از حافظه خارج می‌شوند. همان‌طور که عامل لهستان نوشت: «حافظه من از بازی همان پنجره زمینه است و یک حد سخت دارد».

داربست حافظه: در هر نوبت، عامل وضعیت خود و پنج تامل (تاکتیکی، استراتژیکی، ابزاری، برنامه‌ریزی و فرضیه) را روی دیسک می‌نویسد. وقتی زمینه فشرده می‌شود، مدل این‌ها را دوباره می‌خواند.
بهبود عملکرد: بدون این داربست، تنها ۲۱٪ از بازی‌ها به پایان می‌رسیدند. با این سیستم، عامل‌ها توانستند هدفی را در طول صدها تصمیم حفظ کنند.
طنین احساسی: این دفترچه‌ها نوعی حس پافشاری را آشکار کردند. یک بازی مدل Claude در نقش بابل که بسیار عقب‌تر از ژاپن بود، در نوبت ۲۱۶ نوشت: «بازی اکنون آزمونی از پافشاری است... ما به بهترین بازی خود ادامه می‌دهیم. ستاره‌ها هنوز ما را فرا می‌خوانند». بیست نوبت بعد، او قفل مورد نیاز خود را پیدا کرد («پایگاه فضایی فقط به موشک‌رانی نیاز دارد، نه مدنی مسابقه فضایی»)، اما ژاپن در همان نوبت پیروزی فرهنگی خود را کامل کرد.

ابزار ارزیابی CivBench

برای گذار از روایت‌های تک‌موردی به شواهد علمی، ویلکو یک ابزار ارزیابی رسمی توسعه داد. او چهار خانواده مدل — Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro و Kimi K2.5 — را با استفاده از مجموعه‌ای از چهار کامپیوتر که بازی Civ VI را از طریق SSH اجرا می‌کردند، تست کرد. یک بازی واحد می‌توانست ۲ تا ۸ ساعت زمان واقعی در طول ۳۳۰ نوبت نیاز داشته باشد. او سه سناریوی ثابت را آزمایش کرد:

کنترل زمینی (Ground Control): شروعی عادلانه برای تعیین صلاحیت پایه.
دانه-برفی (Snowflake): نقشه‌ای شش‌پر که بازیکنان را در بازوهای جداگانه محبوس می‌کند و آن‌ها را مجبور به پیروزی نظامی می‌کند.
فریاد ویرانی (Cry Havoc): سناریویی با دشواری بالا و «بی‌رحمانه» که برای شکست دادن مدل‌ها طراحی شده است.

کمی‌سازی شکست‌ها

دو عدد خاص، نقص استراتژیک را خلاصه می‌کنند. اول، چک کردن «کل صفحه» (بررسی اینکه چه کسی به پیروزی نزدیک است) تنها ۱ تا ۲ درصد از کل اقدامات یک عامل را تشکیل می‌دهد. با وجود اینکه به مدل‌ها صریحاً گفته شده بود هر بیست نوبت یک‌بار این بررسی را انجام دهند، آن‌ها در طول یک بازی ۳۳۰ نوبتی تنها بین چهار تا ده مورد چنین بررسی را انجام دادند.

در ۷ مورد از ۲۰ شکست که پیروزی رقیب از قبل قابل مشاهده بود، عامل در ۲۰ نوبت منتهی به باخت، حتی یک بار وضعیت پیروزی رقیب را چک نکرد. این مورد هم در شکست دیپلماتیک پرتغال دیده شد و هم در یک بازی Gemini که با اعتقاد به داشتن یک «گلوله برفی علمی بی‌رقیب»، پیروزی فرهنگی ژاپن را نادیده گرفت.

دوم، همان‌طور که در شکاف دانستن-توانستن اشاره شد، درصد قابل توجهی از حرکات برنامه‌ریزی شده صرفاً نادیده گرفته می‌شوند. Claude Opus 4.6 در این گروه «صندلی‌نشین‌ترین» (Armchair) مدل بود و کمترین میزان پیگیری برنامه‌های خود را داشت.

برای رهبران کسب‌وکار و برنامه‌ریزان دولتی، این یافته‌ها یک هشدار است. ناتوانی یک عامل در پایش ساعت پیروزی رقیب در حالی که روی یک تهدید واحد متمرکز شده است، دقیقاً بازتاب ریسک استقرار سامانه‌های هوش مصنوعی مطمئن در محیط‌های پیچیده سیاست‌گذاری است. CivBench اکنون به صورت بازمتن (از طریق گیت‌هاب) در دسترس است و از پروتکل MCP پشتیبانی می‌کند تا هر آزمایشگاهی بتواند بررسی کند که آیا مدل‌هایش می‌توانند فراتر از یک «ربات کوییز دولتی» بروند و استراتژی‌های بلندمدت یک شبکه شش‌ضلعی را مدیریت کنند یا خیر.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.