Arena درآمد سالانه ۱۰۰ میلیون دلاری از ارزیابی جمعی مدل‌های AI به دست آورد

تصور کنید یک تیم توسعه‌دهنده مدل، به‌جای تکیه بر آزمون‌های خشک ریاضی، بتواند هر روز پاسخ مدل خود با هزاران انسان واقعی مقایسه کند تا نقاط ضعفش را ببیند. این دقیقاً همان چیزی است که Arena به یک کالا با ارزش بالا تبدیل کرده است.

طبق گزارش‌های منتشر شده، Arena در ۲۹ ژوئن ۲۰۲۶ به نرخ درآمد سالانه ۱۰۰ میلیون دلار رسید. این شرکت که در سال ۲۰۲۳ به‌عنوان یک پروژه تحقیقاتی در دانشگاه برکلی آغاز شد، حالا از یک ابزار رایگان عمومی به قطعه‌ای حیاتی در زنجیره توسعه هوش مصنوعی تبدیل شده است.

برای اکثر کاربران، Arena ابزاری رایگان است که در آن دو مدل ناشناس به یک پرسش پاسخ می‌دهند و کاربر مدل برنده را انتخاب می‌کند. اما ارزش تجاری واقعی در داده‌های حاصل از ۱۰ میلیون ارزیابی نهفته است. این سیستم شبیه به یک گروه کانون (Focus Group) عظیم و مداوم است که دقیقاً به آزمایشگاه‌های AI می‌گوید مدل‌هایشان در دنیای واقعی کجا شکست می‌خورند. این رویکرد پویا در تضاد با روش‌های سنتی است، همان‌طور که تفاوت‌های بنیادین بنچمارک‌های ایستا در برابر شبیه‌سازی‌های پویا در ارزیابی AI نشان می‌دهد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی همراستاسازی مدل‌ها اشاره کردیم، تکیه بر بازخوردهای انسانی برای اصلاح رفتار مدل‌ها ضروری است. به گزارش TechCrunch، Arena از سپتامبر ۲۰۲۵ شروع به دریافت هزینه از طریق سرویس «ارزیابی‌های هوش مصنوعی» کرد. این محصول، تحلیل‌های عملکردی دقیقی را به شرکت‌ها ارائه می‌دهد. آناستاسیوس آنجلوپولوس (Anastasios Angelopoulos)، مدیرعامل شرکت، تصریح کرد که مدل درآمدی آن‌ها بر اساس «مصرف» است، بنابراین برخلاف معیارهای رایج SaaS، درآمد آن‌ها لزوماً تکرارشونده نیست.

مقیاس مالی و رقابت

سرمایه: این استارتاپ ۲۵۰ میلیون دلار از سرمایه‌گذاران بزرگی چون Andreessen Horowitz، Felicis و Kleiner Perkins جذب کرده است.
رشد: در ژانویه ۲۰۲۶، درآمد سالانه این شرکت ۳۰ میلیون دلار و ارزش آن ۱.۷ میلیارد دلار تخمین زده می‌شد.
رقیبان: Arena اکنون برای تصاحب بودجه‌های مشابه با شرکت‌های برچسب‌گذاری انسانی مانند Scale AI، Surge و Mercor رقابت می‌کند.

بر اساس بررسی منابع متعدد، اشتهای بازار برای اصلاحات پس از آموزش (Post-training) به‌شدت در حال افزایش است. برای مثال، شرکت‌های Mercor و Handshake نیز در سال جاری درآمد سالانه بالای یا نزدیک به ۱ میلیارد دلار را گزارش کرده‌اند.

پلتفرم Arena اکنون مدل‌ها را در حوزه‌های متن، کدنویسی و بینایی رتبه‌بندی می‌کند. همچنین از طریق «حالت عامل» (Agent Mode) — یعنی سیستمی که مثل یک کارمند مجازی، مراحل مختلف یک پروژه را به‌صورت زنجیره‌ای پیش می‌برد — گردش‌کارهای پیچیده را رصد می‌کند. این قابلیت، مرز جدیدی در محک‌زنی (Benchmarking) مدل‌هاست و می‌تواند بر نتایج رقابتی اثر بگذارد، مشابه آنچه در گزارش BenchLM درباره پیشتازی Claude Opus 4.8 در برابر GPT-5.5 مشاهده شد.

این شرکت توسط وی-لین چیانگ (Wei-Lin Chiang) و ایون استوئیکا (Ion Stoica) — یکی از بنیان‌گذاران Databricks و استاد دانشگاه برکلی — تأسیس شد. انتقال این پروژه از یک محیط متن‌باز به یک نهاد تجاری در آپریل ۲۰۲۵ رخ داد.

این نقطه عطف مالی نشان می‌دهد که صنعت در حال فاصله گرفتن از محک‌های ایستا (Static Benchmarks) است. اکنون رویکرد جدید، تکرارهای پویا و مبتنی بر ترجیحات انسانی است که در لحظه اتفاق می‌افتد.

گام بعدی شما

اگر مدل زبانی توسعه می‌دهید، از داده‌های رایگان Arena برای شناسایی «نقاط کور» مدل خود در برابر رقبای اصلی استفاده کنید.
روند تغییر رتبه‌ها در «حالت عامل» را دنبال کنید تا بفهمید کدام مدل‌ها در اجرای تسک‌های چندمرحله‌ای پیشرو هستند.
استراتژی‌های جدید Scale AI برای مقابله با مدل‌های ارزیابی جمعی را زیر نظر بگیرید.

اما تأثیر این مدل ارزیابی بر سرعت عرضه مدل‌های استدلالی حتی پیچیده‌تر است؛ به تحلیل ما درباره‌ی مدل‌های Reasoning مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مقیاس مالی و رقابت

سرمایه: این استارتاپ ۲۵۰ میلیون دلار از سرمایه‌گذاران بزرگی چون Andreessen Horowitz، Felicis و Kleiner Perkins جذب کرده است.
رشد: در ژانویه ۲۰۲۶، درآمد سالانه این شرکت ۳۰ میلیون دلار و ارزش آن ۱.۷ میلیارد دلار تخمین زده می‌شد.
رقیبان: Arena اکنون برای تصاحب بودجه‌های مشابه با شرکت‌های برچسب‌گذاری انسانی مانند Scale AI، Surge و Mercor رقابت می‌کند.

گام بعدی شما

اگر مدل زبانی توسعه می‌دهید، از داده‌های رایگان Arena برای شناسایی «نقاط کور» مدل خود در برابر رقبای اصلی استفاده کنید.
روند تغییر رتبه‌ها در «حالت عامل» را دنبال کنید تا بفهمید کدام مدل‌ها در اجرای تسک‌های چندمرحله‌ای پیشرو هستند.
استراتژی‌های جدید Scale AI برای مقابله با مدل‌های ارزیابی جمعی را زیر نظر بگیرید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Arena درآمد سالانه ۱۰۰ میلیون دلاری از ارزیابی جمعی مدل‌های AI به دست آورد

مقیاس مالی و رقابت

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Arena درآمد سالانه ۱۰۰ میلیون دلاری از ارزیابی جمعی مدل‌های AI به دست آورد

مقیاس مالی و رقابت

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Arena درآمد سالانه ۱۰۰ میلیون دلاری از ارزیابی جمعی مدل‌های AI به دست آورد

مقیاس مالی و رقابت

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Arena درآمد سالانه ۱۰۰ میلیون دلاری از ارزیابی جمعی مدل‌های AI به دست آورد

مقیاس مالی و رقابت

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران