姐妹们,兄弟们!是不是一看到协方差公式就头大?其实没那么难啦!简单来说,协方差就是衡量两个变量一起变化的程度。变化方向相同就为正,相反就为负,数值越大,相关性越强。具体的计算方法有很多,下面就来手把手教你,超级详细,包教包会哦!
先从最基础的讲起,敲黑板!
方法一:定义公式
这是最根本的公式,理解了它,其他的都好说!
Cov(X,Y) = E[(X-E[X])(Y-E[Y])]
看起来很复杂?其实很简单!E是期望值(也就是平均数),X和Y是两个变量。这个公式的意思就是:先分别计算X和Y的离差(每个值与平均值的差),再把对应位置的离差相乘,最后把所有乘积的平均值算出来,就是协方差啦!
举个栗子🌰:
小明和小红最近都在努力学习,想看看他们的学习时间和考试成绩之间有没有关系。
| 天数 | 小明学习时间 (小时) | 小明考试成绩 (分) | 小红学习时间 (小时) | 小红考试成绩 (分) |
|—|—|—|—|—|
| 第一天 | 2 | 60 | 3 | 70 |
| 第二天 | 3 | 70 | 4 | 80 |
| 第三天 | 4 | 80 | 5 | 90 |
先算小明学习时间和成绩的协方差:
1. 计算小明学习时间的平均值 E[X] = (2+3+4)/3 = 3
2. 计算小明成绩的平均值 E[Y] = (60+70+80)/3 = 70
3. 计算每一天的离差乘积:(2-3)(60-70) + (3-3)(70-70) + (4-3)(80-70) = 10+0+10 = 20
4. 计算协方差:Cov(X,Y) = 20/3 ≈ 6.67
同理,可以算出小红学习时间和成绩的协方差,大家可以自己动手试试看哦!
方法二:方便计算的公式
这个公式在实际计算中更常用,因为它不需要先计算平均值,直接用原始数据就能算出来!
Cov(X,Y) = E[XY] – E[X]E[Y]
这个公式的意思是:先计算X和Y的乘积的平均值,再分别计算X和Y的平均值,然后用第一个结果减去两个平均值的乘积,就是协方差!
用上面的例子再算一遍小明的数据:
1. 计算X和Y的乘积的平均值:E[XY] = (260 + 370 + 480)/3 = (120+210+320)/3 = 216.67
2. 计算X的平均值:E[X] = 3
3. 计算Y的平均值:E[Y] = 70
4. 计算协方差:Cov(X,Y) = 216.67 – 370 = 216.67 – 210 = 6.67
看,结果和方法一是一样的!
方法三:样本协方差公式
当我们只有样本数据,而不是全部数据的时候,就要用样本协方差公式。它和方法二很像,只是分母变成了n-1,而不是n。
Cov(X,Y) = Σ[(Xi-X̄)(Yi-Ȳ)] / (n-1)
其中,X̄和Ȳ分别是X和Y的样本平均值,n是样本数量。用n-1是为了更准确地估计总体协方差。
一些补充说明,划重点!
协方差的单位是两个变量单位的乘积,所以不太好直观理解它的大小。
协方差只能反映线性关系,如果两个变量之间是非线性关系,即使协方差很大,也不能说明它们之间有很强的相关性。
为了更好地比较不同变量之间的相关性,可以用相关系数,它是协方差的标准化版本,取值范围在-1到1之间。
怎么样,是不是觉得协方差也没那么可怕了?学会了这些公式,以后分析数据就更有底气啦!记得多练习几遍,熟能生巧哦!还有什么不懂的,可以评论区留言,一起讨论呀!
评论前必须登录!
立即登录 注册