数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

2.3.3 相关系数与协方差

1.协方差

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,当两个变量相同时则为方差。

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。公式为:

Cov(X,Y)=E[(X-E[X])Y-E[Y]]

其中:E(X)为变量X的期望,E(Y)为变量Y的期望。

协方差Cov(X,Y)是描述随机变量相互关联程度的一个特征数。协方差具有以下特性:

Cov(X,Y)>0时,称XY正相关;

Cov(X,Y)<0时,称XY负相关;

Cov(X,Y)=0时,称XY不相关。

(1)案例分析

以一组学生玩游戏时间与成绩的数据为例,计算两个不同变量之间的协方差,数据如表2-23所示。

表2-23 学生玩游戏时间与成绩表

(2)操作步骤

1)单击“数据|分析|数据分析”命令,在“数据分析”对话框中选择“协方差”选项,然后单击“确定”按钮。

2)在“协方差”对话框进行参数设置,“输入区域”选择$A$1:$B$11(包含标题),“分组方式”默认“逐列”选项,勾选“标志位于第一行”选项,“输出区域”选择单元格$D$2,然后单击“确定”按钮,如图2-143所示。

图2-143 “协方差”对话框

3)学生玩游戏时间与成绩的协方差统计结果如图2-144所示。两者之间的协方差结果为-385.5。由此可见,学生玩游戏时间与成绩是呈现负相关的,玩游戏时间较长,学生成绩相对较差。

图2-144 协方差计算结果

但协方差仅能进行定性的分析,并不能进行定量的分析。例如,学生玩游戏时间和成绩的协方差为-385.5,但两者之间的相关性的强度是多少,协方差并没有给出定量的判断标准,因此需要计算两者之间的相关系数来判断。

2.相关系数

相关系数又称线性相关系数、皮氏积矩相关系数等,是衡量两个随机变量之间线性相关程度的指标。相关系数最早是由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。根据研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但它是最常见的相关系数,下面主要探讨简单相关系数。

皮尔逊相关系数的公式为:

其中,Cov(X,Y)为XY的协方差,Var(X)为X的方差,Var(Y)为Y的方差。

(1)案例分析

以一组学生玩游戏时间与成绩的数据为例,数据如表2-23所示,计算两个不同变量之间的相关系数。

(2)操作步骤

1)单击“数据|分析|数据分析”命令,在“数据分析”对话框中选择“相关系数”选项,然后单击“确定”按钮。

2)在“相关系数”对话框进行参数设置,“输入区域”选择$A$1:$B$11(包含标题),“分组方式”默认为“逐列”选项,勾选“标志位于第一行”选项,“输出区域”选择单元格$D$2,然后单击“确定”按钮,如图2-145所示。

图2-145 “相关系数”对话框

3)学生玩游戏时间与成绩的相关系数统计结果如图2-146所示。两者之间的相关系数为-0.89。由此可见,学生玩游戏时间与成绩是呈现负相关的,且两者线性相关性较强。

图2-146 相关系数计算结果