皮尔逊系数为什么要中心化？中心化之后有什么好处？

Question

余弦相似度和皮尔逊系数在使用上有啥区别？网上很多都说用皮尔逊系数是为了解决数据缺失，但我感觉这个解释有点牵强。希望有大神能够指点一二！

关注者

18

被浏览

8,857

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

我试着从工程的角度回答一下，不正面回答，只是想借助这个问题串一串相关知识。从而感受一下这些理论问题都来自于工程。

开发推荐引擎是我的工作的一部分，余弦相似度和皮尔逊系数都用，认为在大部分数据特征下是一样的，反正推荐引擎只是想得到一个相对比较从而排序。

在学习线性代数的时候，我们被反复告知：理论上可以怎么计算；手算的时候应该怎么计算；计算机算的时候应该怎么计算。分不清楚不行。

单从计算机来说，计算机从多个方面引入巨大误差，并且积累的十分可怕：

第一：进制的差别，现实中的十进制和计算机的二进制之间的误差是无法弥补的

第二：在计算机中小数使用浮点数和双精度，当两个数的位数相差巨大的时候，小的完全被掩盖

第三：计算机位数有限造成的截取误差

学习向量内积的时候，会学到余弦相似度，当学到最小二乘法和线性回归的时候，就会学到mean-deviation form，就是皮尔逊系数那样减去一个平均值，当学到内积空间的时候，就会觉得这也平常，度量本来就是可以设计各种各样的度量函数，减去一个平均值，在工程上有那么大的好处，为什么不做呢。

所以，我想说，接这个问题串一串相关知识，很好！