Skip to content

协方差 & 相关系数

Covariance & Correlation coefficient

Cov
定义

对于两个随机变量X,Y

有期望和方差:E(X)E(Y),D(X)D(Y)

其协方差为:Cov(X,Y)=E((XE(X))(YE(Y)))

可得Cov(X,Y)=E(XY)E(X)E(Y)

D(X±Y)=D(X)+D(Y)±Cov(X,Y)

注意
  • 独立仅是协方差为0的必要条件,即使不独立,协方差也可能为0

  • 协方差受变量单位的影响

协方差矩阵

对于矩阵A=[X1,X2,,Xn](Xi=[xi1,xi2,,xin]T), 期望向量[μ1,μ2,,μn]

其协方差矩阵元素:Σij=Cov(Xi,Xj)=E[(Xiμi)(Xjμj)]

协方差矩阵为:

Σ=[σ12σ12σ1nσ21σ22σ2nσn1σn2σn2]

由于Cov(X,Y)=Cov(Y,X)可知协方差矩阵是一个对称矩阵,对角线元素即为各个变量的方差

然而在大多数情况下,无法获取总体数据进行计算时,我们只能使用部分样本数据来进行估计

对于样本数据N,第k个样本的第ij个变量xki,xkj ,以及第ij个样本均值x¯i,x¯j

Σ^ij=1N1i=1N(AkiA¯i)(AkjA¯j)

ρ相关系数

为了解决协方差中单位的影响,合理的表示两个随机变量之间的(线性)相关性

定义

X=XE(X)D(X),Y=YE(Y)D(Y),对X,Y进行标准化

因此Cov(X,Y)

=E(XE(X)D(X)YE(Y)D(Y))

E(XE(X)D(X))E(YE(Y)D(Y))

=E((XE(X))(YE(Y)))D(X)D(Y)

ρ=Cov(X,Y)=Cov(X,Y)D(X)D(Y),其中ρ1(E(XY))2E(X)2E(Y)2

  • ρ=0 ,只能说明X,Y之间不存在线性关系,二者不独立,协方差也可能为0
  • ρ=1,说明二者完全正(负)相关
相关系数矩阵

对于矩阵A=[X1,X2,,Xn](Xi=[xi1,xi2,,xin]T)

其相关系数矩阵元素Rij=ρ(Xi,Xj)=σijσiiσjj

在使用样本估计总体时R^ij=Σ^ijΣ^iiΣ^jj .

由于相关系数取值在[1,1] 其相关系数矩阵为:

R=[1ρ12ρ1nρ211ρ2nρn1ρn21]