我们先从一个简单的问题开始:你扔一枚硬币,结果是什么?可能是正面,也可能是反面。这个结果是随机的。现在,我们把这个结果用数字来表示,比如说,正面记为1,反面记为0。这个可以取不同数值(这里是0或1)的变量,就叫做随机变量。
具体来说,如果一个随机变量的可能取值是有限的,或者虽然是无限的但可以一个一个数得过来(比如整数1, 2, 3, …),那它就是“离散型随机变量”。 扔硬币的结果、掷骰子的点数、一小时内网站的访问次数,这些都是离散型随机变量。它的特点就是,取值之间有明确的间隔,是跳跃的,不是连续的。 你掷骰子,点数可以是3,也可以是4,但绝不可能是3.5。
与它对应的是连续型随机变量,比如身高、体重、温度。这些变量可以取某个范围内的任何数值,是连续不断的。
搞清楚了什么是离散型随机变量,下一步就是它的概率分布。
概率分布,说白了,就是一张说明书,它告诉你这个随机变量取每一个可能值的概率分别是多少。 这张“说明书”可以用一个表格,也可以用一个函数公式来表示。对于离散型随机变量,我们通常用一个表格或者一个叫做“概率质量函数”(Probability Mass Function, PMF)的东西来描述它。
不管形式如何,一个有效的离散概率分布必须满足两个基本条件:
1. 所有可能结果的概率值都必须在0到1之间(包括0和1)。概率不可能是负数,也不可能超过100%。
2. 把所有可能结果的概率加起来,总和必须等于1。 这是因为所有可能的情况必然会发生一个,所以总概率是100%。
举个最简单的例子,掷一个标准的六面骰子。我们用随机变量 X 来表示掷出的点数。X 的可能取值就是 {1, 2, 3, 4, 5, 6}。因为骰子是均匀的,每个点数出现的可能性都一样。所以,它的概率分布可以用下面这个表格来表示:
| X (点数) | P(X) (概率) |
|---|---|
| 1 | 1/6 |
| 2 | 1/6 |
| 3 | 1/6 |
| 4 | 1/6 |
| 5 | 1/6 |
| 6 | 1/6 |
你看,每个概率都是1/6,在0和1之间。而且 1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 6/6 = 1。完全符合规定。有了这张表,你就可以回答关于掷骰子的任何概率问题,比如“掷出点数小于等于3的概率是多少?” 答案就是 P(X=1) + P(X=2) + P(X=3) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2。
在现实世界中,很多随机事件的概率分布都呈现出一些固定的模式。人们把这些常见的模式总结出来,就成了一些著名的离散概率分布。下面我们聊聊几种最常用的。
1. 两点分布 (0-1分布 或 伯努利分布)
这是最简单的分布,没有之一。它描述的是一次只有两种可能结果的随机试验。 比如扔一次硬币(正面/反面)、产品质检(合格/不合格)、考试(通过/不通过)。我们通常把这两种结果记为1(成功)和0(失败)。
假设“成功”的概率是 p,那么“失败”的概率自然就是 1-p。 这就是两点分布。
它的概率分布可以写成:
P(X=1) = p
P(X=0) = 1-p
比如,一个篮球运动员罚球命中率是80%,那么他下一次罚球命中的结果就服从参数 p=0.8 的两点分布。P(投中) = 0.8,P(投不中) = 0.2。
2. 二项分布
两点分布是做一次试验,那如果我们把这个试验独立重复做 n 次呢?二项分布描述的就是在这种情况下,“成功”发生了 k 次的概率。
这里的关键词是“独立重复”。“独立”意味着每次试验的结果互不影响,你这次罚球进不进,跟你上次的结果没关系。“重复”意味着每次试验成功的概率 p 都是一样的。
二项分布的应用场景很多。比如:
扔10次硬币,恰好有6次是正面的概率。
生产线上抽检100个产品,恰好有2个次品的概率。
一个班有50个学生,随机访问发现有10个人支持某个提案的概率。
要计算这个概率,需要用到它的概率质量函数:
P(X=k) = C(n, k) (p^k) ((1-p)^(n-k))
这个公式看着复杂,其实很好理解:
C(n, k) 是组合数,表示从 n 次试验中选出 k 次成功,有多少种选法。
p^k 是 k 次成功的概率乘在一起。
(1-p)^(n-k) 是剩下 n-k 次失败的概率乘在一起。
举个例子:还是那个命中率80%的篮球运动员,他连续罚球5次,恰好投中4次的概率是多少?
这里 n=5, k=4, p=0.8。
P(X=4) = C(5, 4) (0.8^4) (0.2^1)
P(X=4) = 5 0.4096 0.2 = 0.4096
所以,他5次罚球投中4次的概率是40.96%。
3. 泊松分布
泊松分布处理的是在某个固定的时间段或空间区域内,某个事件发生的次数。 它的特点是,这些事件是独立发生的,而且发生的平均速率是固定的。
泊松分布的例子随处可见:
一个客服中心在一小时内接到多少个电话。
一本书的某一页上有多少个印刷错误。
某个路口在一天内发生多少起交通事故。
一滴水中含有多少个微生物。
泊松分布只用一个参数,叫做 λ (lambda),表示单位时间/空间内事件发生的平均次数。
它的概率质量函数是:
P(X=k) = (λ^k e^(-λ)) / k!
这里 k 是我们关心的发生次数,e 是自然对数的底(约等于2.718),k! 是 k 的阶乘。
举个例子:某个公交站台平均每小时有10位乘客前来候车。那么,在接下来的一个小时内,恰好有8位乘客来的概率是多少?
这里 λ=10, k=8。
P(X=8) = (10^8 e^(-10)) / 8!
这个计算起来有点麻烦,通常我们会查表或者用计算器。结果大约是 0.1126,也就是11.26%。
一个有意思的地方是,当二项分布的 n 很大,p 很小的时候,可以用泊松分布来近似计算,这时 λ = np。 比如,一个工厂生产一大批零件,次品率是0.1%。随机抽检2000个,恰好有3个次品的概率,用二项分布算很麻烦,但可以用 λ = 2000 0.001 = 2 的泊松分布来估算,会简单很多。
4. 几何分布
几何分布和二项分布有点像,都是基于重复的伯努利试验。但它关心的问题不一样。几何分布问的是:为了取得第一次成功,我需要尝试多少次?
这个随机变量 X 是试验的次数。
比如:
你不停地掷骰子,直到第一次掷出6点为止,总共掷了多少次?
一个销售员不停地打电话,直到签下第一单为止,总共打了多少个电话?
几何分布的概率质量函数很简单:
P(X=k) = ((1-p)^(k-1)) p
这个也很好理解:前 k-1 次都失败了,概率是 (1-p)^(k-1),第 k 次终于成功了,概率是 p。
举个例子:有一种抽奖活动,中奖率是5%。你打算一直抽,直到中奖为止。那么,你恰好在第10次抽奖时才中奖的概率是多少?
这里 p=0.05, k=10。
P(X=10) = ((1-0.05)^(10-1)) 0.05
P(X=10) = (0.95^9) 0.05 ≈ 0.630 0.05 = 0.0315
所以,这个概率大约是3.15%。
理解这些分布,不是为了记住公式,而是为了能把现实世界的问题,对应到合适的数学模型上。当你遇到一个关于随机事件的问题时,可以先判断它是不是离散的。然后,根据问题的特点,是问“n次里有k次成功”?还是“单位时间里发生k次”?还是“第一次成功需要k次”?这样就能找到合适的工具来分析和解决问题。这在质量控制、金融保险、交通管理等很多领域都很有用。

七点爱学
评论前必须登录!
立即登录 注册