Data cleaning is a crucial part of every data analysis exercise. Yet, the currently available R packages do not provide fast and robust methods for cleaning and preparation of time series data. The open source package tsrobprep introduces efficient methods for handling missing values and outliers using model based approaches. For data imputation a probabilistic replacement model is proposed, which may consist of autoregressive components and external inputs. For outlier detection a clustering algorithm based on finite mixture modelling is introduced, which considers typical time series related properties as features. By assigning to each observation a probability of being an outlying data point, the degree of outlyingness can be determined. The methods work robust and are fully tunable. Moreover, by providing the auto_data_cleaning function the data preprocessing can be carried out in one cast, without manual tuning and providing suitable results. The primary motivation of the package is the preprocessing of energy system data, however, the package is also suited for other moderate and large sized time series data set. We present application for electricity load, wind and solar power data.


翻译:数据清理是每项数据分析工作的一个关键部分。然而,目前可用的 R 包并不提供快速和稳健的清理和时间序列数据编制方法。 开放源代码包 tsrobprep 采用基于模型的方法,采用高效的方法处理缺失的值和外部值。 对于数据估算,提出了一种概率替代模型,该模型可能由自动递增组件和外部输入组成。 对于基于有限混合物模型的群集算法,引入了超强检测算法,该算法将典型的时间序列特性视为特性。通过给每观察点分配一个外围数据点的概率,可以确定外围值的程度。该方法非常健全,完全可以捕捉。此外,通过提供自动数据清理功能,数据预处理可以一次性完成,无需手动调整和提供适当结果。该包的主要动机是先处理能源系统数据,然而,该包也适合其他中大型的时间序列数据集。我们介绍了电荷载、风能和太阳能数据的应用。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
专知会员服务
38+阅读 · 2020年8月14日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
7+阅读 · 2019年3月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
8+阅读 · 2018年11月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年6月13日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
专知会员服务
38+阅读 · 2020年8月14日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关资讯
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
7+阅读 · 2019年3月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
8+阅读 · 2018年11月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员