Kemeny constant, defined as the expected hitting time of random walks from a source node to a randomly chosen target node, is a fundamental metric in graph data management with many real-world applications. However, computing it exactly on large graphs is highly challenging, as it requires inverting large graph matrices. Existing solutions mainly rely on approximate random-walk-based methods, which still need large sample sizes and lack strong theoretical guarantees. In this paper, we propose a new approach for approximating the Kemeny constant via 2-forest sampling. We first derive an unbiased estimator expressed through spanning trees by introducing a path mapping technique that establishes a direct correspondence between spanning trees and certain classes of 2-forests. Compared to random walk-based estimators, 2-forest-based estimators yield leads to a better theoretical bound. We further design efficient algorithms to sample and traverse spanning trees, leveraging data structures such as the Binary Indexed Tree (BIT) for optimization. Our theoretical analysis shows that the Kemeny constant can be approximated with relative error $ε$ in $O\left(\frac{Δ^2\bar{d}^2}{ε^2}(τ+ n\min(\log n, Δ))\right)$ time, where $τ$ is the tree-sampling time, $\bar{d}$ is the average degree, and $Δ$ is the graph diameter. This complexity is near-linear in practice. Moreover, existing methods largely target static graphs and lack efficient mechanisms for dynamic updates. To address this, we propose two sample maintenance strategies that partially update samples while preserving accuracy on dynamic graphs. Extensive experiments on 10 large real-world datasets demonstrate that our method consistently outperforms state-of-the-art approaches in both efficiency and accuracy on static and dynamic graphs.


翻译:Kemeny常数定义为随机游走从源节点到随机选择的目标节点的期望命中时间,是图数据管理中的基本度量指标,具有众多实际应用。然而,在大型图上精确计算该常数极具挑战性,因其需要求逆大规模图矩阵。现有解决方案主要依赖基于随机游走的近似方法,这些方法仍需大量样本且缺乏强理论保证。本文提出一种通过2-森林采样近似Kemeny常数的新方法。我们首先通过引入路径映射技术推导出基于生成树的无偏估计量,该技术建立了生成树与特定类别2-森林之间的直接对应关系。与基于随机游走的估计量相比,基于2-森林的估计量可获得更优的理论界。我们进一步设计高效算法来采样和遍历生成树,并利用二进制索引树(BIT)等数据结构进行优化。理论分析表明,Kemeny常数可在$O\\left(\\frac{\\Delta^2\\bar{d}^2}{\\epsilon^2}(\\tau+ n\\min(\\log n, \\Delta))\\right)$时间内以相对误差$\\epsilon$近似计算,其中$\\tau$为树采样时间,$\\bar{d}$为平均度,$\\Delta$为图直径。该复杂度在实践中接近线性。此外,现有方法主要针对静态图,缺乏有效的动态更新机制。为此,我们提出两种样本维护策略,在动态图上部分更新样本的同时保持精度。在10个大型真实数据集上的大量实验表明,我们的方法在静态和动态图上均持续优于现有最优方法,在效率与精度方面表现卓越。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员