1.3 协方差和相关系数

这里简单回顾一下《概率论》课本中对协方差和相关系数的定义和说明。

协方差的定义:设随机变量X和Y的函数[X-E(X)][Y-E(Y)]的数学期望存在,则称为X与Y的协方差cov(X,Y)。证明如下:

$$ cov(X,Y)=E{[X-E(X)][Y-E(Y)]} $$

$$ =E(XY-XE(Y)-YE(X)+E(X)E(Y)]=E(XY)-E(X)E(Y) $$

定理1:若随机变量X和Y相互独立,则协方差cov(X,Y)等于0。

推论:若随机变量X和Y相互独立,则X和Y一定不相关。其实可以理解成“独立”是相关的一种特殊情况。

相关系数的定义如下:

$$ R(X,Y)=\dfrac {cov(X,Y)} {\sqrt{D(X)} \sqrt{D(Y)}} $$

定理2:任意两个随机变量的相关系数的绝对值不大于1。当且仅当Y和X之间存在线性关系时,R(X,Y)的绝对值为1。

若随机变量X和Y相互独立,则相关系数R(X,Y)等于0。

协方差表示两个变量的总体的变化趋势。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果两个变量不相关,则协方差为0,变量线性无关不表示一定没有其他相关性(可以是非线性相关,例如$$ Y=X^2 $$)。在实际的使用中,协方差通常用下面公式来计算:

$$ cov(x,y) = \dfrac {\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)} {n-1} $$

皮尔逊相关系数

results matching ""

    No results matching ""