皮尔逊系数为什么要中心化?中心化之后有什么好处?

余弦相似度和皮尔逊系数在使用上有啥区别?网上很多都说用皮尔逊系数是为了解决数据缺失,但我感觉这个解释有点牵强。希望有大神能够指点一二!
关注者
18
被浏览
8,857
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

我试着从工程的角度回答一下,不正面回答,只是想借助这个问题串一串相关知识。从而感受一下这些理论问题都来自于工程。

开发推荐引擎是我的工作的一部分,余弦相似度和皮尔逊系数都用,认为在大部分数据特征下是一样的,反正推荐引擎只是想得到一个相对比较从而排序。

在学习线性代数的时候,我们被反复告知:理论上可以怎么计算;手算的时候应该怎么计算;计算机算的时候应该怎么计算。分不清楚不行。

单从计算机来说,计算机从多个方面引入巨大误差,并且积累的十分可怕:

第一:进制的差别,现实中的十进制和计算机的二进制之间的误差是无法弥补的

第二:在计算机中小数使用浮点数和双精度,当两个数的位数相差巨大的时候,小的完全被掩盖

第三:计算机位数有限造成的截取误差

学习向量内积的时候,会学到余弦相似度,当学到最小二乘法和线性回归的时候,就会学到mean-deviation form,就是皮尔逊系数那样减去一个平均值,当学到内积空间的时候,就会觉得这也平常,度量本来就是可以设计各种各样的度量函数,减去一个平均值,在工程上有那么大的好处,为什么不做呢。

所以,我想说,接这个问题串一串相关知识,很好!