推荐系统算法FM、FFM使用时,连续性特征,是直接作为输入,还是经过离散化后one-hot处理呢?

推荐系统算法FM、FFM,我看论文及网上给出的使用方法,数据都是类别型的,经过one-hot处理,如果特征是连续性变量,是直接作为输入,还是经过离散化…
关注者
605
被浏览
94,850
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

我也说一下我的笑话和理解: 可以直接输入。

我当时一度以为连续特征怎么会有固定的embedding表示呢…为此还跟同事争论过…(是这么吵的:假如离散特征有三个可能的值,如:红蓝绿,那就会学出三个embedding,这要是换成连续值,岂不是要出现无限个embedding……)

后来发现确实是我的问题,因为模型并不是去学习出一个向量来表示这个特征,而是学习出一个向量来表示这个特征的权重(或者说这个特征的影响力是不是更准确些)

但是!在进入到深度学习里面,只看wide&deep和deepfm,(1)w&d是将连续值特征转换成累计分布形式(还是连续值!!并没有离散化),只针对离散特征去做fm和特征交叉;而它的连续值和离散特征的embedding是拼接起来输入到神经网络里面去的。(2)deepfm强行制造端到端的一步式训练,它讲FM学习到的embedding作为特征的表示(是的,是特征的表示还不是特征权重的表示!)所以,对deepfm应该不允许出现连续特征,所有连续特征都得离散化才能输入到模型里面去……


上面一些灼见,还望大佬们可以帮我分析分析,是不是我理解错了,谢谢