فرانتیر-انگ یک معیار ارزیابی است که با دقت انسانی تأیید شده و برای سنجش توانایی عوامل هوش مصنوعی در وظایف بهینهسازی مولد طراحی شده است. برخلاف معیارهای رایج که تنها نتایج ساده موفق/ناموفق را بررسی میکنند، این معیار ماهیت تکراری مهندسی واقعی را بازتاب میدهد؛ جایی که راهحلها از طریق چرخههای پیشنهاد، اجرا و ارزیابی بهبود مییابند. این مجموعه شامل ۴۷ وظیفه در پنج دسته کلی مهندسی است که همگی بر پایه شبیهسازها و ابزارهای تأیید صنعتی بنا شدهاند و بازخورد پیوسته ارائه میدهند و محدودیتهای سخت قابلیت اجرا را اعمال میکنند. تیم پژوهشی هشت مدل زبانی پیشرو را با استفاده از چارچوبهای جستجوی نماینده ارزیابی کرد. اگرچه کلود ۴.۶ اوپس عملکرد مقاومتری از خود نشان داد، این معیار برای تمام مدلهای آزمایششده چالشبرانگیز بود. تحلیلها الگوی دوگانه کاهشی قانون توانی را آشکار ساخت: فراوانی بهبود با تعداد تکرار (تقریباً یکبهیک) کاهش مییابد و همچنین میزان بهبود با تعداد بهبودهای انجامشده کمتر میشود. مطالعه همچنین نشان داد که اگرچه گسترش دامنه اکتشاف، موازیسازی و تنوع در تولید گزینهها را بهبود میدهد، عمق اصلاح برای دستیابی به بهبودهای دشوار در محدودیتهای تعاملی ثابت همچنان ضروری است. این پژوهش معیاری نوین برای ارزیابی توانایی عوامل هوش مصنوعی در ترکیب دانش تخصصی با بازخورد قابل اجرا برای حل مسائل پیچیده و باز مهندسی ارائه میدهد. این معیار شکاف مهمی در روشهای ارزیابی فعلی را پر میکند که عمدتاً بر وظایف دودویی تمرکز دارند و فرآیندهای بهینهسازی تکراری مرکزی در عمل واقعی مهندسی را نادیده میگیرند.

گفتگو