Log parsing converts log messages into structured event templates, allowing for automated log analysis and reducing manual inspection effort. To select the most compatible parser for a specific system, multiple evaluation metrics are commonly used for performance comparisons. However, existing evaluation metrics heavily rely on labeled log data, which limits prior studies to a fixed set of datasets and hinders parser evaluations and selections in the industry. Further, we discovered that different versions of ground-truth used in existing studies can lead to inconsistent performance conclusions. Motivated by these challenges, we propose a novel label-free template-level metric, PMSS (parser medoid silhouette score), to evaluate log parser performance. PMSS evaluates both parser grouping and template quality with medoid silhouette analysis and Levenshtein distance within a near-linear time complexity in general. To understand its relationship with label-based template-level metrics, FGA and FTA, we compared their evaluation outcomes for six log parsers on the standard corrected Loghub 2.0 dataset. Our results indicate that log parsers achieving the highest PMSS or FGA exhibit comparable performance, differing by only 2.1% on average in terms of the FGA score; the difference is 9.8% for FTA. PMSS is also significantly (p<1e-8) and positively correlated to both FGA and FTA: the Spearman's rho correlation coefficient of PMSS-FGA and PMSS-FTA are respectively 0.648 and 0.587, close to the coefficient between FGA and FTA (0.670). We further extended our discussion on how to interpret the conclusions from different metrics, identifying challenges in using PMSS, and provided guidelines on conducting parser selections with our metric. PMSS provides a valuable evaluation alternative when ground-truths are inconsistent or labels are unavailable.


翻译:日志解析将日志消息转换为结构化的事件模板,从而实现自动化日志分析并减少人工检查的工作量。为特定系统选择最适配的解析器时,通常采用多种评估指标进行性能比较。然而,现有评估方法严重依赖带标签的日志数据,这既限制了先前研究只能使用固定数据集,也阻碍了工业场景中的解析器评估与选择。此外,我们发现现有研究中使用的不同版本真实标注可能导致不一致的性能结论。基于这些挑战,我们提出了一种新颖的无标签模板级度量方法——PMSS(解析器中心点轮廓分数),用于评估日志解析器的性能。PMSS通过中心点轮廓分析和莱文斯坦距离,在接近线性的时间复杂度下综合评价解析器的分组能力与模板质量。为探究其与基于标签的模板级度量方法(FGA与FTA)的关系,我们在标准修正版Loghub 2.0数据集上比较了六种日志解析器的评估结果。研究表明,获得最高PMSS或FGA评分的解析器表现出相近的性能,其FGA分数平均仅相差2.1%;而FTA分数的差异为9.8%。PMSS与FGA、FTA均呈现显著(p<1e-8)正相关:PMSS-FGA与PMSS-FTA的斯皮尔曼等级相关系数分别为0.648和0.587,接近FGA与FTA之间的系数(0.670)。我们进一步探讨了如何解读不同度量方法的结论,指出了使用PMSS时面临的挑战,并提供了基于该度量进行解析器选择的实践指南。当真实标注存在不一致或标签不可用时,PMSS为评估工作提供了有价值的替代方案。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员