跳转到内容

S2 第四章:连续型随机变量

想象你在一个客服呼叫中心工作。在前面几章中,我们已经掌握了描述”计数”的艺术——二项分布和泊松分布告诉我们事件发生了多少次。但现在,我们要问一个根本不同的问题:我们需要等多久,才能等到第一次事件发生?

概率密度函数(PDF)——连续的”概率质量”

Section titled “概率密度函数(PDF)——连续的”概率质量””

连续型随机变量的根本挑战在于:可能取值有无穷多个,因此任何精确取值的概率都为零。取而代之,我们用概率密度来思考。

从离散到连续分布的过渡

通过观察可能取值不断增加时发生的情况来理解这一概念:

离散:少量取值 — 概率较高(每根柱子都很高)

离散:更多取值 — 概率较低(柱子缩小,更多取值共享总概率)

连续:无穷多个取值 — 曲线下面积等于概率

P(a<X<b)=f(x) 在 a 与 b 之间的曲线下面积P(a < X < b) = f(x) \text{ 在 } a \text{ 与 } b \text{ 之间的曲线下面积}

这一可视化展示了为什么我们需要一套新的数学框架来处理连续型随机变量。曲线上任意一点的”高度”代表概率密度,两点之间的曲线下面积给出实际概率。

定义(概率密度函数):

对于连续型随机变量 XX,我们用一个函数 f(x)f(x) 来描述其概率分布,称为概率密度函数(PDF)。它满足:

  1. f(x)0f(x) \geq 0 对所有 xx 成立(概率密度非负)
  2. P(a<X<b)=abf(x)dxP(a < X < b) = \int_a^b f(x) \, dx(概率是曲线下面积)
  3. f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1(总面积代表总概率 = 1)

例题:

考虑一个随机变量 XX,其概率密度函数为:

f(x)={2x9if 0x30otherwisef(x) = \begin{cases} \frac{2x}{9} & \text{if } 0 \leq x \leq 3 \\ 0 & \text{otherwise} \end{cases}


(a)部分:验证这是一个有效的PDF

我们需要检验两个基本条件:

条件 (i): f(x)0f(x) \geq 0 对所有 xx 成立

  • 对于 0x30 \leq x \leq 3f(x)=2x90f(x) = \frac{2x}{9} \geq 0,因为 x0x \geq 0
  • 对于 x<0x < 0x>3x > 3f(x)=00f(x) = 0 \geq 0

条件 (ii): f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1

f(x)dx=032x9dx=29x2203=199=1\int_{-\infty}^{\infty} f(x) \, dx = \int_0^3 \frac{2x}{9} \, dx = \frac{2}{9} \cdot \frac{x^2}{2}\Big|_0^3 = \frac{1}{9} \cdot 9 = 1

(b)部分:求 P(1<X<2)P(1 < X < 2)

P(1<X<2)=122x9dx=29x2212=19(41)=13P(1 < X < 2) = \int_1^2 \frac{2x}{9} \, dx = \frac{2}{9} \cdot \frac{x^2}{2}\Big|_1^2 = \frac{1}{9}(4-1) = \boxed{\frac{1}{3}}


累积分布函数(CDF)——从起点到现在

Section titled “累积分布函数(CDF)——从起点到现在”

定义(累积分布函数):

累积分布函数定义为:

F(x)=P(Xx)=xf(t)dtF(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt

它表示随机变量取值小于或等于 xx 的概率。

定理(PDF 与 CDF 的基本关系):

对于连续型随机变量:

f(x)=ddxF(x)f(x) = \frac{d}{dx} F(x)

这意味着:

  • CDF 是 PDF 的积分
  • PDF 是 CDF 的导数

这正是微积分基本定理在概率论中的完美体现!

例题(从 CDF 到 PDF):

连续型随机变量 XX 的累积分布函数为:

F(x)={0x<0x380x21x>2F(x) = \begin{cases} 0 & x < 0 \\ \frac{x^3}{8} & 0 \leq x \leq 2 \\ 1 & x > 2 \end{cases}


(a)部分:求 PDF f(x)f(x)

利用基本关系 f(x)=ddxF(x)f(x) = \frac{d}{dx} F(x),对每段求导:

  • 对于 x<0x < 0f(x)=ddx(0)=0f(x) = \frac{d}{dx}(0) = 0
  • 对于 0x20 \leq x \leq 2f(x)=ddx(x38)=3x28f(x) = \frac{d}{dx}\left(\frac{x^3}{8}\right) = \frac{3x^2}{8}
  • 对于 x>2x > 2f(x)=ddx(1)=0f(x) = \frac{d}{dx}(1) = 0

因此:

f(x)={3x280x20otherwise\boxed{f(x) = \begin{cases} \frac{3x^2}{8} & 0 \leq x \leq 2 \\ 0 & \text{otherwise} \end{cases}}

(b)部分:验证这是一个有效的PDF

检验 f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1

f(x)dx=023x28dx=38x3302=188=1\int_{-\infty}^{\infty} f(x) \, dx = \int_0^2 \frac{3x^2}{8} \, dx = \frac{3}{8} \cdot \frac{x^3}{3}\Big|_0^2 = \frac{1}{8} \cdot 8 = 1

(c)部分:求 P(0.5<X<1.5)P(0.5 < X < 1.5)

用 CDF 方法:P(0.5<X<1.5)=F(1.5)F(0.5)P(0.5 < X < 1.5) = F(1.5) - F(0.5)

P(0.5<X<1.5)=F(1.5)F(0.5)=(1.5)38(0.5)38=3.3750.1258=3.258=0.40625\begin{aligned} P(0.5 < X < 1.5) &= F(1.5) - F(0.5) \\ &= \frac{(1.5)^3}{8} - \frac{(0.5)^3}{8} \\ &= \frac{3.375 - 0.125}{8} \\ &= \frac{3.25}{8} = \boxed{0.40625} \end{aligned}


例题(课堂练习):

连续型随机变量 YY 的累积分布函数为:

F(y)={0y<1a(y1)21y31y>3F(y) = \begin{cases} 0 & y < 1 \\ a(y-1)^2 & 1 \leq y \leq 3 \\ 1 & y > 3 \end{cases}

其中 aa 是一个正常数。

  1. aa 的值
  2. 确定概率密度函数 f(y)f(y)
  3. 分别用 CDF 和 PDF 两种方法计算 P(Y>2)P(Y > 2)

你的解答:

数字特征——均值、方差与变换

Section titled “数字特征——均值、方差与变换”

从离散求和到连续积分:自然的演化

Section titled “从离散求和到连续积分:自然的演化”

在学习离散型随机变量时,我们用加权求和来计算期望值:

E(X)=ixiP(X=xi)E(X) = \sum_{i} x_i \cdot P(X = x_i)

但当我们过渡到连续型变量时,对于任何特定值 P(X=xi)=0P(X = x_i) = 0,该怎么办?答案在于一个美妙的数学演化:求和变成积分

定义(连续型随机变量的期望与方差):

对于连续型随机变量 XX,其 PDF 为 f(x)f(x)

期望值(均值):

E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty} x \cdot f(x) \, dx

这代表分布的”重心”或平均值。

方差:

Var(X)=E[(Xμ)2]=(xμ)2f(x)dx=E(X2)[E(X)]2\text{Var}(X) = E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) \, dx = E(X^2) - [E(X)]^2

这衡量围绕均值的”散布”或离散程度。

函数的期望值:

E[g(X)]=g(x)f(x)dxE[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) \, dx

这个强大的公式允许我们求 XX 的任何变换的期望值。

定理(线性变换):

对于连续型随机变量 XX 和常数 aabb

  • E(aX+b)=aE(X)+bE(aX + b) = aE(X) + b
  • Var(aX+b)=a2Var(X)\text{Var}(aX + b) = a^2 \text{Var}(X)

例题(Beta 型分布):

考虑连续型随机变量 XX,其 PDF 为:

f(x)={6x(1x)0x10otherwisef(x) = \begin{cases} 6x(1-x) & 0 \leq x \leq 1 \\ 0 & \text{otherwise} \end{cases}


完整解答:

(a)部分:验证这是一个有效的 PDF

检验 f(x)dx=1\int_{-\infty}^{\infty} f(x) \, dx = 1

016x(1x)dx=601(xx2)dx=6[x22x33]01=6(1213)=616=1\begin{aligned} \int_0^1 6x(1-x) \, dx &= 6\int_0^1 (x - x^2) \, dx \\ &= 6\left[\frac{x^2}{2} - \frac{x^3}{3}\right]_0^1 \\ &= 6\left(\frac{1}{2} - \frac{1}{3}\right) = 6 \cdot \frac{1}{6} = 1 \end{aligned}

(b)部分:计算 E(X)E(X)

E(X)=01x6x(1x)dx=601(x2x3)dxE(X) = \int_0^1 x \cdot 6x(1-x) \, dx = 6\int_0^1 (x^2 - x^3) \, dx

=6[x33x44]01=6(1314)=12= 6\left[\frac{x^3}{3} - \frac{x^4}{4}\right]_0^1 = 6\left(\frac{1}{3} - \frac{1}{4}\right) = \boxed{\frac{1}{2}}

(c)部分:计算 Var(X)\text{Var}(X)

第一步:求 E(X2)E(X^2)

E(X2)=01x26x(1x)dx=601(x3x4)dxE(X^2) = \int_0^1 x^2 \cdot 6x(1-x) \, dx = 6\int_0^1 (x^3 - x^4) \, dx

=6[x44x55]01=6(1415)=310= 6\left[\frac{x^4}{4} - \frac{x^5}{5}\right]_0^1 = 6\left(\frac{1}{4} - \frac{1}{5}\right) = \frac{3}{10}

第二步:代入方差公式

Var(X)=E(X2)[E(X)]2=310(12)2=31014=120\text{Var}(X) = E(X^2) - [E(X)]^2 = \frac{3}{10} - \left(\frac{1}{2}\right)^2 = \frac{3}{10} - \frac{1}{4} = \boxed{\frac{1}{20}}


百分位数与众数——分布的地标

Section titled “百分位数与众数——分布的地标”

定义(百分位数与分位数):

连续分布的第 pp 百分位数(或分位数)是满足以下条件的值 qpq_p

P(Xqp)=F(qp)=p100P(X \leq q_p) = F(q_p) = \frac{p}{100}

解释: p%p\% 的概率质量在 qpq_p 左侧,(100p)%(100-p)\% 在右侧。

特殊情况:

  • 中位数q50q_{50}):F(q50)=0.5F(q_{50}) = 0.5 的”中间”值
  • 第一四分位数q25q_{25}):25% 的值低于此点
  • 第三四分位数q75q_{75}):75% 的值低于此点

定义(众数):

连续分布的众数是使 PDF f(x)f(x) 取最大值的 xx 值。可以通过求解以下条件找到:

ddxf(x)=0,d2dx2f(x)<0\frac{d}{dx} f(x) = 0, \quad \frac{d^2}{dx^2} f(x) < 0

众数代表分布中最”密集”的点——概率最集中的地方。

偏态分布比较

例题(视觉偏态检测练习):

观察这三个分布,大致标出众数、中位数和均值,判断其偏态:

分布 A: 右偏(长右尾)

分布 B: 对称(钟形)

分布 C: 左偏(长左尾)

例题(课堂练习):

连续型随机变量 ZZ 的概率密度函数为:

f(z)={ce2zz00z<0f(z) = \begin{cases} ce^{-2z} & z \geq 0 \\ 0 & z < 0 \end{cases}

其中 cc 是一个正常数。

  1. cc 的值
  2. 计算 E(Z)E(Z)Var(Z)\text{Var}(Z)
  3. P(Z>E(Z))P(Z > E(Z)) 并评论此结果
  4. 利用变换性质求 E(3Z+2)E(3Z + 2)Var(3Z+2)\text{Var}(3Z + 2)
  5. 计算 P(Z>1Z>0.5)P(Z > 1 | Z > 0.5) 并解释结果
  6. 计算 ZZ 的中位数和四分位距
  7. 画出 f(z)f(z) 的草图,在图上标出此分布的众数、中位数和均值,讨论此分布的偏态

你的解答:

(选修)从泊松分布到指数分布

Section titled “(选修)从泊松分布到指数分布”

核心洞察: 我们知道如何计数事件,但事件之间的等待时间呢?

场景: 假设一个过程(如客服呼叫中心的来电)是速率为 λ\lambda 的泊松过程。

定义:TT 为表示到第一次事件发生的等待时间的随机变量。

挑战任务:求随机变量 TT 的概率分布

  1. 求累积分布函数 FT(t)=P(Tt)F_T(t) = P(T \leq t)
  2. FT(t)F_T(t) 求导得到概率密度函数 fT(t)f_T(t)
  3. 计算 TT 的期望值

第一步:求累积分布函数

设定:N(t)N(t) 为时间区间 [0,t][0, t] 内发生的事件数。

已知:N(t)Po(λt)N(t) \sim \text{Po}(\lambda t)

关键问题: FT(t)=P(Tt)F_T(t) = P(T \leq t) 代表什么?

回答: “在时间 tt 内第一次事件发生的概率”

策略洞察: 用补集方法!

“在时间 tt 内第一次事件发生” \Leftrightarrow “在时间 tt 内至少发生一次事件”

因此:P(Tt)=1P(在时间 t 内没有事件发生)=1P(N(t)=0)P(T \leq t) = 1 - P(\text{在时间 } t \text{ 内没有事件发生}) = 1 - P(N(t) = 0)

轮到你了: 用泊松 PMF 计算 P(N(t)=0)P(N(t) = 0) 并求出 FT(t)F_T(t)

t0t \geq 0

FT(t)=P(Tt)=1P(N(t)=0)=___F_T(t) = P(T \leq t) = 1 - P(N(t) = 0) = \_\_\_

第二步:求概率密度函数

回顾: 对于连续型随机变量,fT(t)=ddtFT(t)f_T(t) = \frac{d}{dt} F_T(t)

轮到你了: 对第一步中求得的 CDF 求导得到 PDF。

fT(t)=ddtFT(t)=___t0f_T(t) = \frac{d}{dt} F_T(t) = \_\_\_ \quad t \geq 0

第三步:计算期望值

轮到你了: 用第二步中求得的 PDF 计算 E(T)E(T)

E(T)=0tfT(t)dt=___E(T) = \int_0^{\infty} t \cdot f_T(t) \, dt = \_\_\_

提示: 使用分部积分法。