تصور کنید یک تیم توسعهدهنده مدل، بهجای تکیه بر آزمونهای خشک ریاضی، بتواند هر روز پاسخ مدل خود با هزاران انسان واقعی مقایسه کند تا نقاط ضعفش را ببیند. این دقیقاً همان چیزی است که Arena به یک کالا با ارزش بالا تبدیل کرده است.
طبق گزارشهای منتشر شده، Arena در ۲۹ ژوئن ۲۰۲۶ به نرخ درآمد سالانه ۱۰۰ میلیون دلار رسید. این شرکت که در سال ۲۰۲۳ بهعنوان یک پروژه تحقیقاتی در دانشگاه برکلی آغاز شد، حالا از یک ابزار رایگان عمومی به قطعهای حیاتی در زنجیره توسعه هوش مصنوعی تبدیل شده است.
برای اکثر کاربران، Arena ابزاری رایگان است که در آن دو مدل ناشناس به یک پرسش پاسخ میدهند و کاربر مدل برنده را انتخاب میکند. اما ارزش تجاری واقعی در دادههای حاصل از ۱۰ میلیون ارزیابی نهفته است. این سیستم شبیه به یک گروه کانون (Focus Group) عظیم و مداوم است که دقیقاً به آزمایشگاههای AI میگوید مدلهایشان در دنیای واقعی کجا شکست میخورند. این رویکرد پویا در تضاد با روشهای سنتی است، همانطور که تفاوتهای بنیادین بنچمارکهای ایستا در برابر شبیهسازیهای پویا در ارزیابی AI نشان میدهد.
همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی مدلها اشاره کردیم، تکیه بر بازخوردهای انسانی برای اصلاح رفتار مدلها ضروری است. به گزارش TechCrunch، Arena از سپتامبر ۲۰۲۵ شروع به دریافت هزینه از طریق سرویس «ارزیابیهای هوش مصنوعی» کرد. این محصول، تحلیلهای عملکردی دقیقی را به شرکتها ارائه میدهد. آناستاسیوس آنجلوپولوس (Anastasios Angelopoulos)، مدیرعامل شرکت، تصریح کرد که مدل درآمدی آنها بر اساس «مصرف» است، بنابراین برخلاف معیارهای رایج SaaS، درآمد آنها لزوماً تکرارشونده نیست.
مقیاس مالی و رقابت
- سرمایه: این استارتاپ ۲۵۰ میلیون دلار از سرمایهگذاران بزرگی چون Andreessen Horowitz، Felicis و Kleiner Perkins جذب کرده است.
- رشد: در ژانویه ۲۰۲۶، درآمد سالانه این شرکت ۳۰ میلیون دلار و ارزش آن ۱.۷ میلیارد دلار تخمین زده میشد.
- رقیبان: Arena اکنون برای تصاحب بودجههای مشابه با شرکتهای برچسبگذاری انسانی مانند Scale AI، Surge و Mercor رقابت میکند.
بر اساس بررسی منابع متعدد، اشتهای بازار برای اصلاحات پس از آموزش (Post-training) بهشدت در حال افزایش است. برای مثال، شرکتهای Mercor و Handshake نیز در سال جاری درآمد سالانه بالای یا نزدیک به ۱ میلیارد دلار را گزارش کردهاند.
پلتفرم Arena اکنون مدلها را در حوزههای متن، کدنویسی و بینایی رتبهبندی میکند. همچنین از طریق «حالت عامل» (Agent Mode) — یعنی سیستمی که مثل یک کارمند مجازی، مراحل مختلف یک پروژه را بهصورت زنجیرهای پیش میبرد — گردشکارهای پیچیده را رصد میکند. این قابلیت، مرز جدیدی در محکزنی (Benchmarking) مدلهاست و میتواند بر نتایج رقابتی اثر بگذارد، مشابه آنچه در گزارش BenchLM درباره پیشتازی Claude Opus 4.8 در برابر GPT-5.5 مشاهده شد.
این شرکت توسط وی-لین چیانگ (Wei-Lin Chiang) و ایون استوئیکا (Ion Stoica) — یکی از بنیانگذاران Databricks و استاد دانشگاه برکلی — تأسیس شد. انتقال این پروژه از یک محیط متنباز به یک نهاد تجاری در آپریل ۲۰۲۵ رخ داد.
این نقطه عطف مالی نشان میدهد که صنعت در حال فاصله گرفتن از محکهای ایستا (Static Benchmarks) است. اکنون رویکرد جدید، تکرارهای پویا و مبتنی بر ترجیحات انسانی است که در لحظه اتفاق میافتد.
گام بعدی شما
- اگر مدل زبانی توسعه میدهید، از دادههای رایگان Arena برای شناسایی «نقاط کور» مدل خود در برابر رقبای اصلی استفاده کنید.
- روند تغییر رتبهها در «حالت عامل» را دنبال کنید تا بفهمید کدام مدلها در اجرای تسکهای چندمرحلهای پیشرو هستند.
- استراتژیهای جدید Scale AI برای مقابله با مدلهای ارزیابی جمعی را زیر نظر بگیرید.
اما تأثیر این مدل ارزیابی بر سرعت عرضه مدلهای استدلالی حتی پیچیدهتر است؛ به تحلیل ما دربارهی مدلهای Reasoning مراجعه کنید.




گفتگو