فرانتیر-انگ: معیار ارزیابی عوامل خودتکاملی در وظایف مهندسی

فرانتیر-انگ یک معیار ارزیابی است که با دقت انسانی تأیید شده و برای سنجش توانایی عوامل هوش مصنوعی در وظایف بهینه‌سازی مولد طراحی شده است. برخلاف معیارهای رایج که تنها نتایج ساده موفق/ناموفق را بررسی می‌کنند، این معیار ماهیت تکراری مهندسی واقعی را بازتاب می‌دهد؛ جایی که راه‌حل‌ها از طریق چرخه‌های پیشنهاد، اجرا و ارزیابی بهبود می‌یابند. این مجموعه شامل ۴۷ وظیفه در پنج دسته کلی مهندسی است که همگی بر پایه شبیه‌سازها و ابزارهای تأیید صنعتی بنا شده‌اند و بازخورد پیوسته ارائه می‌دهند و محدودیت‌های سخت قابلیت اجرا را اعمال می‌کنند. تیم پژوهشی هشت مدل زبانی پیشرو را با استفاده از چارچوب‌های جستجوی نماینده ارزیابی کرد. اگرچه کلود ۴.۶ اوپس عملکرد مقاوم‌تری از خود نشان داد، این معیار برای تمام مدل‌های آزمایش‌شده چالش‌برانگیز بود. تحلیل‌ها الگوی دوگانه کاهشی قانون توانی را آشکار ساخت: فراوانی بهبود با تعداد تکرار (تقریباً یک‌به‌یک) کاهش می‌یابد و همچنین میزان بهبود با تعداد بهبودهای انجام‌شده کمتر می‌شود. مطالعه همچنین نشان داد که اگرچه گسترش دامنه اکتشاف، موازی‌سازی و تنوع در تولید گزینه‌ها را بهبود می‌دهد، عمق اصلاح برای دستیابی به بهبودهای دشوار در محدودیت‌های تعاملی ثابت همچنان ضروری است. این پژوهش معیاری نوین برای ارزیابی توانایی عوامل هوش مصنوعی در ترکیب دانش تخصصی با بازخورد قابل اجرا برای حل مسائل پیچیده و باز مهندسی ارائه می‌دهد. این معیار شکاف مهمی در روش‌های ارزیابی فعلی را پر می‌کند که عمدتاً بر وظایف دودویی تمرکز دارند و فرآیندهای بهینه‌سازی تکراری مرکزی در عمل واقعی مهندسی را نادیده می‌گیرند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

فرانتیر-انگ: معیار ارزیابی عوامل خودتکاملی در وظایف مهندسی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرانتیر-انگ: معیار ارزیابی عوامل خودتکاملی در وظایف مهندسی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرانتیر-انگ: معیار ارزیابی عوامل خودتکاملی در وظایف مهندسی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

فرانتیر-انگ: معیار ارزیابی عوامل خودتکاملی در وظایف مهندسی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران