CursorBench 3.1: دقت ۷۲.۹ درصدی Fable 5 Max در وظایف چندفایلی

اگر امروز از یک عامل هوش مصنوعی برای مدیریت پروژه‌های بزرگ کدنویسی استفاده می‌کنید، احتمالاً با هزینه‌های استنتاج بالا یا خطاهای پیش‌بینی‌نشده در فایل‌های متعدد دست‌وپنجه نرم کرده‌اید. این شکاف میان «دقت» و «هزینه»، هسته مرکزی یافته‌های جدید در دنیای ابزارهای کدنویسی است.

طبق اعلام وب‌سایت Cursor در ۲ جولای ۲۰۲۶، مدل Fable 5 Max با کسب امتیاز ۷۲.۹٪ در بنچمارک جدید CursorBench 3.1، سقف فعلی عملکرد عامل‌های هوش مصنوعی (AI Agents) را در تکالیف پیچیده و چندفایلی تعریف کرده است. با این حال، این قدرت بالا با قیمتی گزاف همراه است: هر تکالیف در این مدل حدود ۱۸.۰۲ دلار هزینه برمی‌دارد.

همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، شفافیت در بنچمارک‌ها برای عبور از دوران «تکمیل خودکار کد» به سمت «گردش‌های کاری عامل‌محور» حیاتی است. برخلاف محک‌های سنتی که بر تکه‌های ایزوله کد تکیه داشتند، CursorBench واقعیت آشفته یک مخزن کد حرفه‌ای را شبیه‌سازی می‌کند و مدل‌ها را مجبور می‌کند تا برای حل یک مسئله، میان چندین فایل برنامه‌ریزی و بازبینی کنند.

بر اساس مستندات منتشر شده، نتایج این بنچمارک شکاف عمیقی را میان قدرت خام و توجیه اقتصادی نشان می‌دهد:

Fable 5 Max: بالاترین صحت (۷۲.۹٪) با بیشترین هزینه (۱۸.۰۲ دلار).
Composer 2.5: صحت ۵۲.۲٪ اما با هزینه بسیار اندک (۰.۵۶ دلار).
GPT-5.5 Extra High: تعادلی میان عملکرد (۶۴.۳٪) و هزینه متوسط (۴.۳۷ دلار).
Sonnet 5 Max: صحت ۶۱.۲٪ با هزینه ۶.۸۷ دلار.

این اعداد فرضیه قدیمی که «تنها مدل‌های غول‌پیکر می‌توانند بازسازی‌های پیچیده کد را مدیریت کنند» را به چالش می‌کشد. ظهور مدل‌هایی مثل Composer 2.5 نشان می‌دهد که تنظیم دقیق (Fine-tuning) متمرکز بر قابلیت‌های عاملی می‌تواند مدل‌های کوچک‌تر را به بهره‌وری مدل‌های عظیم نزدیک کند، در حالی که از نظر مالی برای استفاده در مقیاس تولید، پایدار می‌مانند.

توسعه‌دهندگان اکنون باید پشته‌های AI خود را نه تنها با معیار صحت، بلکه با نسبت «هزینه به هر تکالیف» برای ویرایش‌های چندفایلی ارزیابی کنند. با بهبود معیارهای رتبه‌بندی برای یافتن باگ‌ها در نسخه‌های آتی، احتمالاً فاصله میان مدل‌های سری Max و جایگزین‌های بهینه کمتر خواهد شد.

گام بعدی شما

تحلیل هزینه-به-دقت (Cost-per-task) را جایگزین ارزیابی سادهٔ صحت در انتخاب مدل کدنویسی کنید.
مدل‌های کوچک‌تر و تخصصی مانند Composer 2.5 را برای تکالیف تکراری با حجم بالا تست کنید.
قابلیت‌های برنامه‌ریزی میان‌فایلی را در محیط‌های واقعی‌تر (و نه تکه‌های کد مجزا) بسنجید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات منتشر شده، نتایج این بنچمارک شکاف عمیقی را میان قدرت خام و توجیه اقتصادی نشان می‌دهد:

Fable 5 Max: بالاترین صحت (۷۲.۹٪) با بیشترین هزینه (۱۸.۰۲ دلار).
Composer 2.5: صحت ۵۲.۲٪ اما با هزینه بسیار اندک (۰.۵۶ دلار).
GPT-5.5 Extra High: تعادلی میان عملکرد (۶۴.۳٪) و هزینه متوسط (۴.۳۷ دلار).
Sonnet 5 Max: صحت ۶۱.۲٪ با هزینه ۶.۸۷ دلار.

گام بعدی شما

تحلیل هزینه-به-دقت (Cost-per-task) را جایگزین ارزیابی سادهٔ صحت در انتخاب مدل کدنویسی کنید.
مدل‌های کوچک‌تر و تخصصی مانند Composer 2.5 را برای تکالیف تکراری با حجم بالا تست کنید.
قابلیت‌های برنامه‌ریزی میان‌فایلی را در محیط‌های واقعی‌تر (و نه تکه‌های کد مجزا) بسنجید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

CursorBench 3.1: دقت ۷۲.۹ درصدی Fable 5 Max در وظایف چندفایلی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

CursorBench 3.1: دقت ۷۲.۹ درصدی Fable 5 Max در وظایف چندفایلی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

CursorBench 3.1: دقت ۷۲.۹ درصدی Fable 5 Max در وظایف چندفایلی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

CursorBench 3.1: دقت ۷۲.۹ درصدی Fable 5 Max در وظایف چندفایلی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران