Benchmarking optimization algorithms is fundamental for the advancement of computational intelligence. However, widely adopted artificial test suites exhibit limited correspondence with the diversity and complexity of real-world engineering optimization tasks. This paper presents a new benchmark suite comprising 231 bounded, continuous, unconstrained optimization problems, the majority derived from engineering design and simulation scenarios, including computational fluid dynamics and finite element analysis models. In conjunction with this suite, a novel performance metric is introduced, which employs random sampling as a statistical reference, providing nonlinear normalization of objective values and enabling unbiased comparison of algorithmic efficiency across heterogeneous problems. Using this framework, 20 deterministic and stochastic optimization methods were systematically evaluated through hundreds of independent runs per problem, ensuring statistical robustness. The results indicate that only a few of the tested optimization methods consistently achieve excellent performance, while several commonly used metaheuristics exhibit severe efficiency loss on engineering-type problems, emphasizing the limitations of conventional benchmarks. Furthermore, the conducted tests are used for analyzing various features of the optimization methods, providing practical guidelines for their application. The proposed test suite and metric together offer a transparent, reproducible, and practically relevant platform for evaluating and comparing optimization methods, thereby narrowing the gap between the available benchmark tests and realistic engineering applications.


翻译:基准测试优化算法是计算智能领域发展的基础。然而,广泛采用的人工测试套件与真实世界工程优化任务的多样性和复杂性之间对应关系有限。本文提出一个新的基准测试套件,包含231个有界、连续、无约束的优化问题,其中大多数源自工程设计与仿真场景,包括计算流体动力学和有限元分析模型。与此套件配套,引入一种新颖的性能度量标准,该标准采用随机抽样作为统计参考,提供目标值的非线性归一化,并支持在异构问题间对算法效率进行无偏比较。利用该框架,通过每个问题数百次独立运行,系统评估了20种确定性和随机优化方法,确保了统计稳健性。结果表明,仅有少数测试的优化方法能持续取得优异性能,而几种常用的元启发式算法在工程类问题上表现出严重的效率损失,突显了传统基准测试的局限性。此外,所进行的测试用于分析优化方法的多种特征,为其应用提供实用指南。所提出的测试套件与度量标准共同构建了一个透明、可复现且具有实际相关性的平台,用于评估和比较优化方法,从而缩小现有基准测试与真实工程应用之间的差距。

0
下载
关闭预览

相关内容

【CVPR2024】医学基础模型的低秩知识分解
专知会员服务
35+阅读 · 2024年4月29日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2024】医学基础模型的低秩知识分解
专知会员服务
35+阅读 · 2024年4月29日
【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员