This paper evaluates XGboost's performance given different dataset sizes and class distributions, from perfectly balanced to highly imbalanced. XGBoost has been selected for evaluation, as it stands out in several benchmarks due to its detection performance and speed. After introducing the problem of fraud detection, the paper reviews evaluation metrics for detection systems or binary classifiers, and illustrates with examples how different metrics work for balanced and imbalanced datasets. Then, it examines the principles of XGBoost. It proposes a pipeline for data preparation and compares a Vanilla XGBoost against a random search-tuned XGBoost. Random search fine-tuning provides consistent improvement for large datasets of 100 thousand samples, not so for medium and small datasets of 10 and 1 thousand samples, respectively. Besides, as expected, XGBoost recognition performance improves as more data is available, and deteriorates detection performance as the datasets become more imbalanced. Tests on distributions with 50, 45, 25, and 5 percent positive samples show that the largest drop in detection performance occurs for the distribution with only 5 percent positive samples. Sampling to balance the training set does not provide consistent improvement. Therefore, future work will include a systematic study of different techniques to deal with data imbalance and evaluating other approaches, including graphs, autoencoders, and generative adversarial methods, to deal with the lack of labels.


翻译:Translated abstract: 本文评估了XGBoost在不同数据集大小和类别分布方案下的性能,从完全平衡到高度不平衡。本次选择评估XGBoost是因为它在多项基准测试中由于其检测性能和速度而脱颖而出。在介绍欺诈检测问题后,本文回顾了检测系统或二元分类器的评估指标,并且通过例子展示了如何使用不同指标来处理平衡和不平衡数据集。然后,文章探讨了XGBoost的原理。本文提出了数据准备的流程,并将Vanilla XGBoost与经过随机搜索调整的XGBoost进行了比较。随机搜索调整提供了一致的改进,适用于大型数据集(10万个样本),但对于中等和小型数据集(10个和1,000个样本)则不然。此外,如预期的那样,XGBoost的性能随着更多数据的加入而得到提高,在数据集越来越不平衡的情况下,检测性能会下降。在分别包含50%、45%、25%和5%正样本的分布上的测试显示,检测性能的最大下降出现在仅含5%正样本的分布中。通过采样平衡训练集并不能提供一致的改进。因此,未来的工作将包括对处理数据不平衡的不同技术进行系统研究,并评估其他方法,包括图形、自编码器和生成对抗网络方法来处理缺少标签的数据。

0
下载
关闭预览

相关内容

xgboost的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个C++实现,并能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
38+阅读 · 2019年10月9日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
10+阅读 · 2019年6月2日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
19+阅读 · 2022年10月10日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
24+阅读 · 2020年3月11日
VIP会员
相关VIP内容
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
10+阅读 · 2019年6月2日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员