Edge computing environments host increasingly complex microservice-based IoT applications, which are prone to performance anomalies that can propagate across dependent services. Identifying the true source of such anomalies, known as Root Cause Localization (RCL), is essential for timely mitigation. However, existing RCL approaches are designed for cloud environments and rely on centralized analysis, which increases latency and communication overhead when applied at the edge. This paper proposes a decentralized RCL approach that executes localization directly at the edge device level using the Personalized PageRank (PPR) algorithm. The proposed method first groups microservices into communication- and colocation-aware clusters, thereby confining most anomaly propagation within cluster boundaries. Within each cluster, PPR is executed locally to identify the root cause, significantly reducing localization time. For the rare cases where anomalies propagate across clusters, we introduce an inter-cluster peer-to-peer approximation process, enabling lightweight coordination among clusters with minimal communication overhead. To enhance the accuracy of localization in heterogeneous edge environments, we also propose a novel anomaly scoring mechanism tailored to the diverse anomaly triggers that arise across microservice, device, and network layers. Evaluation results on the publicly available edge dataset, MicroCERCL, demonstrate that the proposed decentralized approach achieves comparable or higher localization accuracy than its centralized counterpart while reducing localization time by up to 34%. These findings highlight that decentralized graph-based RCL can provide a practical and efficient solution for anomaly diagnosis in resource-constrained edge environments.


翻译:边缘计算环境承载着日益复杂的基于微服务的物联网应用,这些应用容易发生性能异常,并可能在依赖服务间传播。识别此类异常的真实源头,即根因定位(RCL),对于及时缓解问题至关重要。然而,现有的RCL方法专为云环境设计,依赖集中式分析,在边缘应用时会增加延迟和通信开销。本文提出一种去中心化的RCL方法,利用个性化PageRank(PPR)算法直接在边缘设备层面执行定位。所提方法首先将微服务分组为通信感知和共置感知的集群,从而将大多数异常传播限制在集群边界内。在每个集群内部,本地执行PPR以识别根因,显著缩短定位时间。对于异常跨集群传播的少数情况,我们引入了集群间点对点近似处理机制,实现集群间轻量级协调,通信开销最小。为提高异构边缘环境中定位的准确性,我们还提出一种新颖的异常评分机制,专门针对微服务层、设备层和网络层出现的多样化异常触发场景进行定制。在公开可用的边缘数据集MicroCERCL上的评估结果表明,所提出的去中心化方法在实现与集中式方法相当或更高定位精度的同时,将定位时间减少了高达34%。这些发现表明,基于图的去中心化RCL能为资源受限的边缘环境中的异常诊断提供实用且高效的解决方案。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员