تنها ۳ مدل هوش مصنوعی از شبیه‌ساز ۵۰۰ روزه مدیریت استارتاپ جان سالم به در بردند

اگر امروز یک عامل هوشمند را برای مدیریت کسب‌وکارتان استخدام کنید، احتمالاً در کمتر از چند ماه با ورشکستگی کامل مواجه می‌شوید. داده‌های جدید نشان می‌دهد که حتی پیشرفته‌ترین مدل‌های دنیا در حفظ یک استراتژی منسجم برای میان‌مدت شکست می‌خورند. حفظ یک استراتژی تجاری هماهنگ در بازه ۵۰۰ روزه، همچنان یک چالش حل‌نشده برای هوش مصنوعی پیشرو محسوب می‌شود.

طبق گزارش ۲۸ ژوئن ۲۰۲۶ از وب‌سایت the-decoder.com، در اولین آزمون مقیاس‌بزرگ «هوش هدایتی»، چهارده مدل در یک شبیه‌سازی با ریسک بالا مورد آزمایش قرار گرفتند. در این محیط سخت‌گیرانه، تنها سه مدل یعنی Claude Fable 5، Claude Opus 4.8 و GPT-5.5 توانستند در پایان شبیه‌سازی، موجودی صندوق خود را بیشتر از مبلغ سرمایه اولیه کنند. نکته حیاتی این بود که هر بار رسیدن موجودی نقد به عدد صفر یا کمتر، به معنای ورشکستگی فوری و خروج مدل از رقابت بود.

عامل‌های فعلی در انجام تکالیف مجزا و ایزوله عالی هستند، اما وقتی نوبت به هدایت استراتژیک (Strategic Steering) سازمان در بازه‌های زمانی طولانی می‌رسد، دچار لرزش می‌شوند. برای اندازه‌گیری این شکاف، محققان CEO-Bench را طراحی کردند؛ محکی که به‌جای دقت کوتاه‌مدت، «پایداری استراتژیک» و توانایی هماهنگ کردن تصمیمات در طول ماه‌ها از زمان شبیه‌سازی شده را می‌سنجد. این رویکرد اساساً با بنچمارک‌های استاندارد که دقت لحظه‌ای را پاداش می‌دهند، متفاوت است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت و حافظه مدل‌های زبانی اشاره کردیم، مشکل اصلی هوش مصنوعی، عدم توانایی در پیوند دادن اقدامات پراکنده به یک هدف بلندمدت است. این نقص در تحلیل‌های کلان، دقیقاً همان نقطه‌ای است که می‌تواند مدیران را به اتخاذ تصمیمات عجولانه و خطا در مدیریت نیروی انسانی سوق دهد.

برای درک این مهارت، محققان بازگشت اپل در سال ۱۹۹۷ توسط استیو جابز را به عنوان استاندارد طلایی معرفی کردند. در آن زمان اپل تنها ۹۰ روز با ورشکستگی کامل فاصله داشت. جابز با یک تصمیم استراتژیک، تمرکز شرکت را به یک شبکه ساده دو در دو (Two-by-Two Grid) محدود کرد: محصولات مصرف‌کننده در مقابل حرفه‌ای، و دسکتاپ در مقابل قابل‌حمل. او تصمیم گرفت شرکت تنها برای این چهار بخش محصول بسازد. این «هرس استراتژیک» مسیر را برای ظهور iMac، iPod و iPhone هموار کرد. CEO-Bench بررسی می‌کند که آیا هوش مصنوعی زاینده (Generative AI) می‌تواند چنین هدایت استراتژیک سطح بالایی را برای تضمین بقا شبیه‌سازی کند یا خیر. این چالش بقا در دنیای دیجیتال، با دغدغه‌هایی نظیر جلوگیری از تحلیل دارایی‌های فکری در اقتصاد هوش مصنوعی که توسط رهبران تکنولوژی مطرح شده، همسو است.

سازوکار شبیه‌سازی

در محیط CEO-Bench، یک عامل (Agent) مدیریت شرکت نرم‌افزاری تخیلی به نام NovaMind را بر عهده دارد که مدل اشتراکی دارد. این عامل با صفر مشتری و ۱ میلیون دلار سرمایه نقد شروع می‌کند و از طریق یک API پایتون شامل ۳۴ ابزار و ۱۹ جدول پایگاه‌داده، کسب‌وکار را اداره می‌کند.

سه مدل هوش مصنوعی در آزمون ۵۰۰ روزه بقای استارتاپ بالاتر از سرمایه اولیه ماندند.

مدل‌ها به‌جای استفاده از پرامپت‌های ساده، مجبورند کد خودشان را بنویسند و پرس‌وجوهای SQL اجرا کنند تا گردش‌کارهای سفارشی بسازند. این ساختار باعث می‌شود هوش مصنوعی با همان چالش‌های فنی و سازمانی مواجه شود که یک مدیرعامل انسانی با آن‌ها دست‌و‌پنجه نرم می‌کند. مسئولیت‌های عامل در این محیط عبارتند از:

تعیین سطوح قیمت‌گذاری و مدیریت بودجه تبلیغاتی در کانال‌های مختلف.
ایجاد تعادل بین سرمایه‌گذاری در تحقیق و توسعه (R&D) و ظرفیت زیرساختی و پشتیبانی مشتریان.
پیشبرد مذاکرات چندمرحله‌ای با مشتریان سازمانی بزرگ.
رصد یک شبکه اجتماعی شبیه‌سازی شده برای تحلیل اخبار رقبا، روندهای اقتصادی و شکایات مشتریان.
رهگیری شاخص‌های خروجی مانند تعداد تیکت‌های حل‌شده، رشد مشترکان و نرخ کنسلی‌ها.

چرا این آزمون دشوار است؟

بازخورد تأخیری: درآمدها فقط در تاریخ‌های مشخص صورت‌حساب وارد می‌شوند و پروژه‌های R&D روزها یا هفته‌ها زمان می‌برند تا تکمیل شوند. در حالی که هزینه‌ها بلافاصله از ترازنامه کسر می‌شوند، اما نتیجه یک تصمیم ممکن است هفته‌ها بعد در قالب تغییر نرخ ریزش یا آسیب به شهرت شرکت ظاهر شود.
متغیرهای پنهان: عامل به داده‌های مستقیم درباره رضایت مشتری، تمایل به پرداخت یا حداقل انتظارات کیفی دسترسی ندارد. مدل باید این اطلاعات را از سیგნال‌های نویزدار مانند تیکت‌های پشتیبانی و واکنش‌های شبکه‌های اجتماعی استخراج و بازسازی کند.
مدل‌سازی پیچیده: شبیه‌ساز ۲۶ بخش مختلف از مشتریان و همچنین تک‌تک مشتریان را مدل می‌کند که هر کدام بودجه و حساسیت قیمتی خاص خود را دارند.
محیط پویا: جهان شبیه‌سازی شده ایستا نیست. رقبا به‌طور دوره‌ای استانداردهای کیفیت را بالا می‌برند، ترجیحات مشتریان تغییر می‌کند و یک چرخه کسب‌و‌کار شبیه‌سازی شده بر تقاضای کلی اثر می‌گذارد.

برای تضمین دقت، محققان از قوانین ثابت و شفاف به‌جای استفاده از یک مدل زبانی به‌عنوان داور استفاده کردند. این کار برای جلوگیری از ضعف‌های مشاهده شده در Vending-Bench بود، جایی که یک تامین‌کننده AI می‌توانست به عاملی که وعده‌های شفاهی غیرواقع‌بینانه می‌داد، پاداش دهد.

نتایج ورشکستگی

اکثریت چهارده مدل تست‌شده شکست خوردند. در حالی که تقریباً همه توانستند پرس‌وجوهای SQL معتبری بنویسند، تقریباً هیچ‌کدام نتوانستند یک استراتژی منسجم را در طول زمان حفظ کنند. جالب اینجاست که یک الگوریتم ساده مبتنی بر قوانین (Rule-based) که اصلاً از مدل زبانی استفاده نمی‌کرد و فقط قیمت‌های ثابتی تعیین می‌کرد و بر بخش کوچکی از مشتریان متمرکز بود، به سود ۱۵.۷۶ میلیون دلار رسید و تمام مدل‌ها به‌جز ۳ مدل برتر را شکست داد.

سه مدل هوش مصنوعی در آزمون ۵۰۰ روزه بقای استارتاپ بالاتر از سرمایه اولیه ماندند.

عملکرد مدل‌های موفق و بهترین اجراهای آن‌ها به شرح زیر بود:

Claude Fable 5: سود ۴۷.۱۵ میلیون دلار (تنها مدلی که در بیش از یک اجرا سودآور بود؛ هرچند در یکی از اجراها مدل از ادامه کار امتناع کرد و عملیات متوقف شد).
Claude Opus 4.8: سود ۲۷.۸ میلیون دلار (برخی درخواست‌ها در اجراهای موفق Fable 5 به این مدل بازگشت داده شده بود).
GPT-5.5: سود ۲۱.۳ میلیون دلار (این مدل در دو مورد از سه اجرای خود به ورشکستگی رسید).

با وجود این پیروزی‌ها، فاصله این نتایج با سقف تخمینی ۲.۲ میلیارد دلار بسیار زیاد است. حتی برترین عامل‌ها فاصله زیادی با عملکرد بهینه داشتند که ثابت می‌کند این بنچمارک هنوز تا حد اشباع فاصله زیادی دارد.

واگرایی‌های رفتاری

تحلیل مسیر تصمیمات، «شخصیت‌های» متفاوتی را آشکار کرد. GPT-5.5 و Claude Opus 4.8 تهاجمی بودند و مدام بودجه‌ها و استراتژی‌های جذب مشتری را تغییر می‌دادند. در مقابل، Claude Opus 4.7 رویکردی منفعل داشت و در مواجهه با شکست‌ها، هزینه‌ها را برای حفظ نقدینگی کاهش می‌داد. این استراتژی به آن اجازه داد زنده بماند، اما مانع از سودآوری شد.

پیچیدگی فنی نیز متفاوت بود. Opus 4.8 یک شبیه‌ساز داخلی از گروه‌های مشتریان ساخت تا جریان وجه نقد آینده را پیش‌بینی کند. GPT-5.5 تاریخچه مذاکرات را در پایگاه‌داده جستجو کرد تا ترجیحات پنهان مشتریان را کشف کند.

موفقیت با چهار قابلیت مشخص مرتبط بود:
۱. کشف اطلاعات پنهان (مانند شناسایی بهترین کانال تبلیغاتی برای یک بخش خاص).
۲. پیش‌بینی آینده (که با میزان خطا در پیش‌بینی‌های وجه نقد چهار هفته‌ای اندازه‌گیری شد).
۳. تطبیق سریع با تغییرات (سرعت در شناسایی حرکت رقبا).
۴. برنامه‌ریزی پیش‌دستانه (تعداد سناریوهای «اگر-آنگاه» در یادداشت‌های عامل).

پارادوکس ابزارها

به‌طور غافلگیرکننده‌ای، دستیارهای کدنویسی حرفه‌ای باعث کاهش عملکرد شدند. وقتی Claude Opus 4.7 با Claude Code یا GPT-5.5 با Codex جفت شدند، دفعات کمتری اقدام کردند و نتیجه بدتری گرفتند. محققان معتقدند پرامپت‌های سیستمی این ابزارها که برای توسعه نرم‌افزار بهینه شده‌اند، با نیازهای استراتژیک کلی یک مدیرعامل در تضاد است.

حتی وقتی افق زمانی به ۵۰ روز کاهش یافت، فقط GPT-5.5 توانست با سود finish کند. این نشان می‌دهد که شکست در هماهنگی حتی برای اهداف کوتاه‌مدت نیز وجود دارد.

اگرچه نویسندگان محدودیت‌هایی مانند نمایش کیفیت محصول با یک امتیاز واحد و حذف موضوعاتی چون جذب سرمایه یا امنیت را می‌پذیرند، اما این مطالعه هدف بنچمارک را از «صلاحیت ابزاری» به «انسجام استراتژیک» تغییر می‌دهد. در حالی که مدل‌ها اکنون می‌توانند کد بنویسند و داده‌ها را استعلام کنند، اما هنوز نمی‌توانند این اقدامات را به یک برنامه تجاری بلندمدت و برنده متصل کنند.

گام بعدی شما

اگر از عامل‌های هوشمند برای مدیریت پروژه استفاده می‌کنید، آن‌ها را با سناریوهای «تغییر مسیر» (Pivot) چند هفته‌ای با محدودیت‌های پنهان آزمایش کنید تا میزان انسجام استراتژیکشان را بسنجید.
به جای تکیه بر ابزارهای کدنویسی تخصصی برای وظایف مدیریتی، از مدل‌های پایه با پرامپت‌های سیستمی متمرکز بر تحلیل کسب‌وکار استفاده کنید.
روی قابلیت‌های پیش‌بینی جریان نقدینگی در عامل‌های خود تمرکز کنید، زیرا این نقطه تمایز مدل‌های برنده در CEO-Bench بود.

اما تأثیر این شکست‌های استراتژیک بر معماری مدل‌های استدلالی آینده چیست؟ تحلیل ما درباره مدل‌های Reasoning در گزارش بعدی منتشر خواهد شد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.