基于Xgboost + LR + Keras 建模评估用户信用状态 - 专知

会员服务 ·

0

基于Xgboost + LR + Keras 建模评估用户信用状态

2017 年 10 月 5 日 机器学习研究会

项目背景
拍拍贷“魔镜风控系统”基于400多个数据维度来对当前用户的信用状态进行评估，通过历史数据每个借款人的性别、年龄、籍贯、学历信息、通讯方式、网站登录信息、第三方时间信息等用户信息以及对应的分类标签，在此基础上结合新发标的用户信息，得到用户六个月内逾期率的预测，为金融平台提供关键的决策支持。
数据格式
数据下载–点这里
这里面包含三期数据，每期数据内容和格式相同，这里面包括两部分信息：
一部分是Master
PPD_dat_1.csv
PPD_dat_2.csv
PPD_dat_3.csv

一部分是Log info
PPD_daht_1_LogInfo.csv
PPD_daht_2_LogInfo.csv
PPD_daht_3_LogInfo.csv

一部分是Update info
PPD_daht_1_Userupdate.csv
PPD_daht_2_Userupdate.csv
PPD_daht_3_Userupdate.csv

3. 问题思路

数据清洗

对数据的合并：要把几次的数据合并到一起；要把主表和日志表合并在一起；要把训练集和测试集合并在一起。
对字符空格的转换：存在着汉字和英文字符，需要转换成数值形式；存在着数据表达不统一的情况，比如北京和北京市，QQ和Qq，以及多空格等情况。

对LogInfo与UserupdateInfo 日期信息的处理等：历史记录相对于主表的主要差异在于对于每个index的各项信息，主表是按列汇总，而历史记录是按行堆叠，因此将历史记录按index 分组，将各行信息汇总到各列上，使得各个index 对应唯一一行以与主表连接。此外，对每笔贷款的历史记录中的时间信息，通常其起始时间和登陆/更新信息的总频率对衡量借款人的行为较为重要。

数据摘要

它的作用是简化并理解数据特征，主要包括了变量的类型、变量空值/非空值数据、变量频数前五的值与对应数量、其他值的数量、数字变量的统计量（均值、方差、四分位数）

特征工程

数值特征的保留与非数值特征的转换：有额外信息的非数值变量转化为对应的数值：时间–>年月日周、相对天数，地名–>经纬度和城市等级，定序变量–>序数；其他非数值变量全部0-1哑变量处理。
选取统计量概况一系列相似变量：取中位数、方差、求和、最值、空值树等概况各时期第三方信息、几个城市变量信息等，统计量尽量要相互独立
删除稀疏特征：空值/同一值占绝大比例的列
删除共线特征：相关矩阵的严格下三角阵有接近正负1的列
使用中位数填充空值，通常数据分布不对称时，中位数比平均数更能保持排序关系
最后正态标准化：rank与正态分布的百分位函数复合。之所以考虑正态标准化，是为了应对实际数据的大量有偏分布和极端值，在正态标准化的情况下，数据只保留排序关系，彻底去除了有偏分布和极端值，在大样本下能满足众多模型假设，在本次数据集下能明显提高逻辑回归和神经网络的效果。

模型选择

Logistic Regression 简单、快捷、稳健、可解释性强，工业界最常用的模型之一。虽然LR模型对变量关系的线性限制，使得其难以达到最优，但可以在建模时通过增加L2罚函数来减少过拟合；此外，作为基准，能够对数据清洗效果和模型表现作出快速评估。最后，与树模型、神经网络模型等模型差异度较大，适合进行模型的加权组合，补充模型精度。
XGBoost 适合处理非线性、变量成分多元化、样本和变量间无固定模式关联（图像、语音），在KDDCup等竞赛中表现优秀的模型之一。如果以精度为目标，综合稳健性、速度、通用性等因素可以首选XGBoost
Keras ,深度学习框架，分为线性模型和泛化模型，其中里面各层独立，灵活性高。深度学习的出发点是各变量充满复杂的非线性关系，通过不断优化网络权值向真实关联趋近；而XGBoost 的出发点是认为各变量独立，从决策树的二分关联叠加向真实关联趋近。所以两者各有特点，有较高的互补性。

转自：大数据挖掘DT数据分析

登录查看更多

5

相关内容

DAT

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

41+阅读 · 2020年7月1日

手写实现李航《统计学习方法》书中全部算法

专知会员服务

137+阅读 · 2020年5月19日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

126+阅读 · 2020年3月15日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

189+阅读 · 2020年3月12日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

112+阅读 · 2020年2月24日

[WWW2020-腾讯QQ看点团队]未来上下文建模会话推荐，Modeling Future Contexts

专知会员服务

35+阅读 · 2020年2月21日

【2020新书】数据科学:十大Python项目，247页pdf

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

211+阅读 · 2020年2月21日

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

专知会员服务

115+阅读 · 2019年12月31日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

94+阅读 · 2019年12月4日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

86+阅读 · 2019年10月21日

不到70行 Python 代码，轻松玩转 RFM 用户分析模型（附案例数据和代码）

不到70行 Python 代码，轻松玩转 RFM 用户分析模型（附案例数据和代码）

CSDN

11+阅读 · 2019年11月18日

使用LSTM模型预测股价基于Keras

使用LSTM模型预测股价基于Keras

量化投资与机器学习

34+阅读 · 2018年11月17日

LASSO回归与XGBoost：融合模型预测房价

LASSO回归与XGBoost：融合模型预测房价

论智

30+阅读 · 2018年8月8日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

卷积神经网络(CNN)融合PMF模型构建推荐系统

卷积神经网络(CNN)融合PMF模型构建推荐系统

数据挖掘入门与实战

7+阅读 · 2018年4月12日

互联网金融中的交易反欺诈模型

互联网金融中的交易反欺诈模型

炼数成金订阅号

14+阅读 · 2018年3月9日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

深度学习实战（二）——基于Keras 的深度学习

深度学习实战（二）——基于Keras 的深度学习

乐享数据DataScientists

15+阅读 · 2017年7月13日

阿里数加：机器学习算法基于信用卡消费记录做信用评分

阿里数加：机器学习算法基于信用卡消费记录做信用评分

ITS专业大数据

7+阅读 · 2017年6月16日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Reinforced Negative Sampling over Knowledge Graph for Recommendation

Arxiv

16+阅读 · 2020年3月12日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

38+阅读 · 2019年7月31日

Testing Matrix Rank, Optimally

Arxiv

3+阅读 · 2018年10月18日

A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment

Arxiv

3+阅读 · 2018年9月4日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

8+阅读 · 2018年5月21日

Regularized Singular Value Decomposition and Application to Recommender System

Arxiv

6+阅读 · 2018年4月13日

$ρ$-hot Lexicon Embedding-based Two-level LSTM for Sentiment Analysis

Arxiv

6+阅读 · 2018年3月21日

Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec

Arxiv

17+阅读 · 2017年12月12日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

VIP会员

相关主题

相关VIP内容

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

41+阅读 · 2020年7月1日

手写实现李航《统计学习方法》书中全部算法

专知会员服务

137+阅读 · 2020年5月19日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

126+阅读 · 2020年3月15日

【经典书】Python数据数据分析第二版，541页pdf

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

189+阅读 · 2020年3月12日

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

【2020新书】企业级机器学习: Spark XGBoost LightGBM, NLP, Keras深度学习, 367页pdf

专知会员服务

112+阅读 · 2020年2月24日

[WWW2020-腾讯QQ看点团队]未来上下文建模会话推荐，Modeling Future Contexts

专知会员服务

35+阅读 · 2020年2月21日

【2020新书】数据科学:十大Python项目，247页pdf

【2020新书】数据科学:十大Python项目，247页pdf

专知会员服务

211+阅读 · 2020年2月21日

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

《动手学深度学习》(Dive into Deep Learning)PyTorch实现

专知会员服务

115+阅读 · 2019年12月31日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

94+阅读 · 2019年12月4日

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

【推荐系统/计算广告/机器学习/CTR预估资料汇总】

专知会员服务

86+阅读 · 2019年10月21日

热门VIP内容

相关资讯

不到70行 Python 代码，轻松玩转 RFM 用户分析模型（附案例数据和代码）

不到70行 Python 代码，轻松玩转 RFM 用户分析模型（附案例数据和代码）

CSDN

11+阅读 · 2019年11月18日

使用LSTM模型预测股价基于Keras

使用LSTM模型预测股价基于Keras

量化投资与机器学习

34+阅读 · 2018年11月17日

LASSO回归与XGBoost：融合模型预测房价

LASSO回归与XGBoost：融合模型预测房价

论智

30+阅读 · 2018年8月8日

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

CTR预估专栏 | Facebook经典模型LR+GBDT理论与实践

AI前线

14+阅读 · 2018年8月3日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

卷积神经网络(CNN)融合PMF模型构建推荐系统

卷积神经网络(CNN)融合PMF模型构建推荐系统

数据挖掘入门与实战

7+阅读 · 2018年4月12日

互联网金融中的交易反欺诈模型

互联网金融中的交易反欺诈模型

炼数成金订阅号

14+阅读 · 2018年3月9日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

深度学习实战（二）——基于Keras 的深度学习

深度学习实战（二）——基于Keras 的深度学习

乐享数据DataScientists

15+阅读 · 2017年7月13日

阿里数加：机器学习算法基于信用卡消费记录做信用评分

阿里数加：机器学习算法基于信用卡消费记录做信用评分

ITS专业大数据

7+阅读 · 2017年6月16日

相关论文

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

Reinforced Negative Sampling over Knowledge Graph for Recommendation

Arxiv

16+阅读 · 2020年3月12日

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation

Arxiv

38+阅读 · 2019年7月31日

Testing Matrix Rank, Optimally

Arxiv

3+阅读 · 2018年10月18日

A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment

Arxiv

3+阅读 · 2018年9月4日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

8+阅读 · 2018年5月21日

Regularized Singular Value Decomposition and Application to Recommender System

Arxiv

6+阅读 · 2018年4月13日

$ρ$-hot Lexicon Embedding-based Two-level LSTM for Sentiment Analysis

Arxiv

6+阅读 · 2018年3月21日

Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE, and node2vec

Arxiv

17+阅读 · 2017年12月12日

A Hierarchical Contextual Attention-based GRU Network for Sequential Recommendation

Arxiv

5+阅读 · 2017年12月7日

大家都在搜

李清照词作

精益管理体系

基于大型语言模型

生成式人工智能

性别年龄戴眼镜识别论文

微信扫码咨询专知VIP会员