With the rapid growth of data availability and usage, quantifying the added value of each training data point has become a crucial process in the field of artificial intelligence. The Shapley values have been recognized as an effective method for data valuation, enabling efficient training set summarization, acquisition, and outlier removal. In this paper, we introduce "STI-KNN", an innovative algorithm that calculates the exact pair-interaction Shapley values for KNN models in O(t n^2) time, which is a significant improvement over the O(2^n)$ time complexity of baseline methods. By using STI-KNN, we can efficiently and accurately evaluate the value of individual data points, leading to improved training outcomes and ultimately enhancing the effectiveness of artificial intelligence applications.


翻译:---- 随着数据可用性和使用方式的快速增长,量化每个训练数据点的增加值变得至关重要。Shapley值已被认为是一种有效的数据估值方法,使得能够进行高效的训练集概括、获取和异常值去除。在本文中,我们引入“STI-KNN”,一种创新算法,可以在O(t n^2)的时间内计算KNN模型的精确的成对交互Shapley值,这是一个相对于基线方法O(2^n)时间复杂度的重大改进。通过使用STI-KNN,我们能够高效准确地评估个体数据点的价值,从而改善训练结果,进而提高人工智能应用的效果。

0
下载
关闭预览

相关内容

【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
An Overview on Machine Translation Evaluation
Arxiv
14+阅读 · 2022年2月22日
Arxiv
12+阅读 · 2019年3月14日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员