记录的顺序大体按照张立新老师的授课顺序,参考了教材《概率论与随机过程》上册与张立新老师的ppt。
右侧有标签索引,可以快速定位内容qwq。
Chapter 0:前言
因为路就在那里。
为什么学统计? 也许是当时脑子一热,想给自己找点事干,因此就这么仓促的做出了这么一个决定:辅修统计学!辅修学位!
可能是我本身对数学的兴趣使然。但是呢,我从高中开始就没选择数学竞赛,然后大学出于某些原因也没有选择数学专业,我又是个没有自驱力的人,因此,辅修可能是我唯一一次系统化学习数学的机会了。
概率论是我第一门专业课,希望能记录一套完整的笔记,起一个好头,未来能在 blog 里记下每一个数学专业课的笔记。
Chapter 1:事件与概率
接下来的内容你可能在高中接触过,或许会认为非常简单。但是这一章还是很重要,他把你高中接触的概率语言翻译成了严谨的数学语言。是高中与大学的过渡。
1.1:随机现象与统计规律性
频率的定义:F N ( A ) = n N F_N(A) = \frac{n}{N} F N ( A ) = N n 。
频率的性质:
非负性:F N ( A ) ≥ 0 F_N(A)\ge 0 F N ( A ) ≥ 0 ;
规范性:F N ( Ω ) = 1 F_N(\Omega)=1 F N ( Ω ) = 1 ;
可加性:A , B A, B A , B 互不相容,则 F N ( A ) + F N ( B ) = F N ( A + B ) F_N(A)+F_N(B)=F_N(A+B) F N ( A ) + F N ( B ) = F N ( A + B ) 。
1.2:古典概型
古典概型的特征:
样本空间是有限的;
各个基本事件发生的概率的等概率的。
1.3:概率的公理化定义
1.3.2:概率空间
概率空间的三个要素:样本空间Ω \Omega Ω ,事件域F F F ,概率P P P ,这个三元体记作 ( Ω , F , P ) (\Omega, F, P) ( Ω , F , P ) 。
事件域的性质:
Ω ∈ F \Omega \in F Ω ∈ F ;
若 A ∈ F A\in F A ∈ F ,则 A ‾ ∈ F \overline{A}\in F A ∈ F ;
若 A 1 , . . . , A n , . . . ∈ F A_1,...,A_n,...\in F A 1 , . . . , A n , . . . ∈ F ,则 ∪ i = 1 ∞ A i ∈ F \cup_{i=1}^{\infty}A_i \in F ∪ i = 1 ∞ A i ∈ F ;
∅ ∈ F \emptyset\in F ∅ ∈ F ;
若 A 1 , . . . , A n , . . . ∈ F A_1,...,A_n,...\in F A 1 , . . . , A n , . . . ∈ F ,则 ∩ i = 1 ∞ A i ∈ F \cap_{i=1}^{\infty}A_i \in F ∩ i = 1 ∞ A i ∈ F ;
证明: ∩ i = 1 ∞ A i = ∪ i = 1 ∞ A i ‾ ‾ \cap_{i=1}^{\infty}A_i =\overline{\cup_{i=1}^{\infty}\overline{A_i}} ∩ i = 1 ∞ A i = ∪ i = 1 ∞ A i ,再由 3、2 推出。
若 A 1 , . . . , A n ∈ F A_1,...,A_n\in F A 1 , . . . , A n ∈ F ,则 ∩ i = 1 n A i ∈ F \cap_{i=1}^{n}A_i \in F ∩ i = 1 n A i ∈ F 。
证明:在 A 序列补空集,运用 3 即可证明。
一维博雷尔集:Ω = R \Omega = \mathbb{R} Ω = R ,取一切左开右闭区间和他们的交并补形成的事件域。
概率的定义:概率是定义在事件域上的实值函数,满足:
P ( A ) ≥ 0 P(A)\ge 0 P ( A ) ≥ 0 ;
P ( Ω ) = 1 P(\Omega)=1 P ( Ω ) = 1 ;
可列可加性:若 A 1 , . . . , A n , . . . A_1,...,A_n,... A 1 , . . . , A n , . . . 互不相容,则 P ( ∑ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P(\sum_{i=1}^{\infty} A_i)=\sum_{i=1}^{\infty}P(A_i) P ( ∑ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) 。
概率的性质:
P ( ∅ ) = 0 P(\emptyset)=0 P ( ∅ ) = 0 ;
证明:注意到 P ( Ω ) = P ( Ω + ∅ + . . . ) = P ( Ω ) + P ( ∅ ) + . . . P(\Omega)=P(\Omega+\emptyset+...)=P(\Omega)+P(\emptyset)+... P ( Ω ) = P ( Ω + ∅ + . . . ) = P ( Ω ) + P ( ∅ ) + . . .
有限可加性:若任意 ij, A i A j = ∅ A_iA_j=\emptyset A i A j = ∅ ,则 P ( ∑ i = 1 n A i ) = ∑ i = 1 n P ( A i ) P(\sum_{i=1}^{n} A_i)=\sum_{i=1}^{n}P(A_i) P ( ∑ i = 1 n A i ) = ∑ i = 1 n P ( A i ) ;
证明:注意到 P ( ∑ i = 1 n A i ) = P ( ∑ i = 1 n A i + ∅ + . . . ) = ∑ i = 1 n P ( A i ) + P ( ∅ ) + . . . = ∑ i = 1 n P ( A i ) P(\sum_{i=1}^{n}A_i)=P(\sum_{i=1}^{n}A_i+\emptyset+...)=\sum_{i=1}^{n}P(A_i)+P(\emptyset)+...=\sum_{i=1}^{n}P(A_i) P ( ∑ i = 1 n A i ) = P ( ∑ i = 1 n A i + ∅ + . . . ) = ∑ i = 1 n P ( A i ) + P ( ∅ ) + . . . = ∑ i = 1 n P ( A i ) ;
P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P ( A ) = 1 − P ( A ) ;
证明:A ∪ A ‾ = Ω A\cup \overline{A}=\Omega A ∪ A = Ω ;
若 B ⊂ A B\subset A B ⊂ A ,则 P ( A − B ) = P ( A ) − P ( B ) P(A-B)=P(A)-P(B) P ( A − B ) = P ( A ) − P ( B ) ,其中 P ( A − B ) P(A-B) P ( A − B ) 定义为 A ∩ B ‾ A\cap \overline{B} A ∩ B ;
证明:A = B + ( A − B ) A=B+(A-B) A = B + ( A − B ) ,因此 P ( A ) = P ( B ) + P ( A − B ) P(A)=P(B)+P(A-B) P ( A ) = P ( B ) + P ( A − B ) 。
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B)-P(AB) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) ;
证明:A ∪ B = A + ( B − A B ) A\cup B=A+(B-AB) A ∪ B = A + ( B − A B ) 。P ( A ∪ B ) = P ( A ) + P ( B − A B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B-AB)=P(A)+P(B)-P(AB) P ( A ∪ B ) = P ( A ) + P ( B − A B ) = P ( A ) + P ( B ) − P ( A B ) 。
P(A\B)=P(A)-P(AB) ;
较为重要 多还少补原理(容斥原理):P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) = ∑ i = 1 n P ( A i ) − ∑ 1 ≤ i < j ≤ n P ( A i A j ) + . . . + ( − 1 ) n P ( A 1 A 2 . . . A n ) P(A_1\cup A_2\cup ... \cup A_n)=\sum\limits_{i=1}^{n}P(A_i)-\sum\limits_{1\le i< j \le n}P(A_iA_j)+...+(-1)^n P(A_1A_2...A_n) P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) = i = 1 ∑ n P ( A i ) − 1 ≤ i < j ≤ n ∑ P ( A i A j ) + . . . + ( − 1 ) n P ( A 1 A 2 . . . A n ) 。
证明:考虑使用数学归纳法。n = 2 n=2 n = 2 的时候,由性质5显然成立。
若 n > 2 n>2 n > 2 且对 n − 1 n-1 n − 1 成立,那么 P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) = P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∪ A n ) P(A_1\cup A_2\cup ...\cup A_n)=P((A_1\cup ...\cup A_{n-1})\cup A_{n}) P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) = P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∪ A n ) ,用一次性质5,原式 = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∩ A n ) ∪ . . . ∪ ( A n − 1 ∩ A n ) ) =P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n})=P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cap A_n)\cup ...\cup (A_{n-1}\cap A_n)) = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∩ A n ) ∪ . . . ∪ ( A n − 1 ∩ A n ) ) 。 变形成这样后对这个式子第一项和第三项都用一次 n − 1 n-1 n − 1 的结论即可,空间原因就不赘述了,展开后就得到归纳成立。
ps1:如果交换交并符号,容斥原理仍然成立。即P ( A 1 ∩ A 2 ∩ . . . ∩ A n ) = ∑ i = 1 n P ( A i ) − ∑ 1 ≤ i < j ≤ n P ( A i ∪ A j ) + . . . + ( − 1 ) n P ( A 1 ∪ A 2 ∪ . . . ∪ A n ) P(A_1\cap A_2\cap ... \cap A_n)=\sum\limits_{i=1}^{n}P(A_i)-\sum\limits_{1\le i< j \le n}P(A_i\cup A_j)+...+(-1)^n P(A_1\cup A_2\cup ...\cup A_n) P ( A 1 ∩ A 2 ∩ . . . ∩ A n ) = i = 1 ∑ n P ( A i ) − 1 ≤ i < j ≤ n ∑ P ( A i ∪ A j ) + . . . + ( − 1 ) n P ( A 1 ∪ A 2 ∪ . . . ∪ A n )
次可加性 :P ( A 1 ∪ . . . ∪ A n ) ≤ P ( A 1 ) + P ( A 2 ) + . . . + P ( A n ) P(A_1\cup ...\cup A_n)\le P(A_1)+P(A_2)+...+P(A_n) P ( A 1 ∪ . . . ∪ A n ) ≤ P ( A 1 ) + P ( A 2 ) + . . . + P ( A n )
证明:考虑使用数学归纳法。n = 2 n=2 n = 2 的时候,由性质5显然成立。
若 n > 2 n>2 n > 2 且对 n − 1 n-1 n − 1 成立,那么原式 = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) ≤ P ( A 1 ) + . . . + P ( A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) ≤ P ( A 1 ) + . . . + P ( A n − 1 ) + P ( A n ) =P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n})\le P(A_1)+...+P(A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n}) \le P(A_1)+...+P(A_{n-1})+P(A_n) = P ( A 1 ∪ . . . ∪ A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) ≤ P ( A 1 ) + . . . + P ( A n − 1 ) + P ( A n ) − P ( ( A 1 ∪ . . . ∪ A n − 1 ) ∩ A n ) ≤ P ( A 1 ) + . . . + P ( A n − 1 ) + P ( A n ) 。因此归纳成立。
ps2:实际上 78 都可以用示性函数+组合数来快速证明出来,8还可以推广成前两项、三项、... 感兴趣的可以了解一下,如果有空我会在后面补充一下这方面的知识。
1.3.3 概率测度的连续性:
这块的内容还是比较抽象的,绝对是概率论第一章最难理解的部分。
不妨令 A 1 ⊂ A 2 ⊂ . . . ⊂ A n ⊂ . . . A_1 \subset A_2 \subset...\subset A_n\subset ... A 1 ⊂ A 2 ⊂ . . . ⊂ A n ⊂ . . . ,记 A = ∪ n = 1 ∞ A n A=\cup _{n=1}^{\infty} A_n A = ∪ n = 1 ∞ A n ,那么我们称 A A A 是 A n A_n A n 的极限 。显然 A A A 是事件,我们要研究的是 A A A 的概率。
Lemma 1 : P ( A ) = lim n → ∞ P ( A n ) \text{Lemma 1}: P(A)=\lim_{n\to \infty} P(A_n)
Lemma 1 : P ( A ) = n → ∞ lim P ( A n )
我们称上面的式子为:概率的下连续性 。
证明:我们令 B n = A n − A n − 1 B_n = A_n-A_{n-1} B n = A n − A n − 1 ,于是 A = A 1 ∪ B 2 ∪ B 3 ∪ . . . A=A_1\cup B_2\cup B_3\cup ... A = A 1 ∪ B 2 ∪ B 3 ∪ . . . ,显然这个事件列是互不相容的。所以
P ( A ) = P ( A 1 ) + lim n → ∞ ∑ k = 2 n P ( B k ) P(A)=P(A_1)+\lim_{n\to \infty}\sum\limits_{k=2}^{n}P(B_k)
P ( A ) = P ( A 1 ) + n → ∞ lim k = 2 ∑ n P ( B k )
又 P ( B k ) = P ( A k ) − P ( A k − 1 ) P(B_k)=P(A_k)-P(A_{k-1}) P ( B k ) = P ( A k ) − P ( A k − 1 ) ,于是导出 P ( A ) = lim n → ∞ P ( A n ) P(A)=\lim_{n\to \infty}P(A_n) P ( A ) = lim n → ∞ P ( A n ) 。
同理可得概率的上连续性 :如果 A n A_n A n 单调减少,记 A = ∩ n = 1 ∞ A n A=\cap _{n=1}^{\infty} A_n A = ∩ n = 1 ∞ A n ,那么 P ( A ) = lim n → ∞ P ( A n ) P(A)=\lim_{n\to \infty} P(A_n) P ( A ) = lim n → ∞ P ( A n ) 。
以上都是针对单调事件,于是仿照数列极限,事件的上下极限的概念就呼之欲出了:
lim inf n → ∞ A n = ∪ n = 1 ∞ ∩ m = n ∞ A m \lim \inf _{n\to \infty} A_n = \cup _{n=1}^{\infty} \cap_{m=n}^{\infty} A_m
lim n → ∞ inf A n = ∪ n = 1 ∞ ∩ m = n ∞ A m
lim sup n → ∞ A n = ∩ n = 1 ∞ ∪ m = n ∞ A m \lim \sup _{n\to \infty} A_n = \cap _{n=1}^{\infty} \cup_{m=n}^{\infty} A_m
lim n → ∞ sup A n = ∩ n = 1 ∞ ∪ m = n ∞ A m
其中下极限表示的是:至多有限不发生 。上极限表示的是:无限发生 。根据这个字面意思肯定有下极限属于上极限,我们接下来用数学语言证明一下。
我们取任意一个事件 ω ∈ lim inf n → ∞ A n = ∪ n = 1 ∞ ∩ m = n ∞ A m \omega \in \lim \inf _{n\to \infty} A_n = \cup _{n=1}^{\infty} \cap_{m=n}^{\infty} A_m ω ∈ lim inf n → ∞ A n = ∪ n = 1 ∞ ∩ m = n ∞ A m ,那么根据定义,存在一个 N N N ,使得 n > N n>N n > N 的时候,均有 ω ∈ A n \omega \in A_n ω ∈ A n 。
于是对于任意 n n n ,我们取 k = max ( n , N + 1 ) k = \max(n, N+1) k = max ( n , N + 1 ) ,则有 ω ∈ A k \omega \in A_k ω ∈ A k ,那么必有 ω ∈ ∪ m = n ∞ A m \omega \in \cup_{m=n}^{\infty} A_m ω ∈ ∪ m = n ∞ A m 。
因此必有 ω ∈ lim sup n → ∞ A n = ∩ n = 1 ∞ ∪ m = n ∞ A m \omega \in \lim \sup _{n\to \infty} A_n = \cap _{n=1}^{\infty} \cup_{m=n}^{\infty} A_m ω ∈ lim sup n → ∞ A n = ∩ n = 1 ∞ ∪ m = n ∞ A m 。
于是我们得到了:
lim inf n → ∞ A n ⊂ lim sup n → ∞ A n \lim \inf _{n\to \infty} A_n \subset \lim \sup _{n\to \infty} A_n
lim n → ∞ inf A n ⊂ lim n → ∞ sup A n
所以我们定义极限存在:如果 lim inf n → ∞ A n = lim sup n → ∞ A n \lim \inf _{n\to \infty} A_n = \lim \sup _{n\to \infty} A_n lim inf n → ∞ A n = lim sup n → ∞ A n ,那么 A n A_n A n 极限存在。如果 A n A_n A n 极限存在,那么有:
P ( lim n → ∞ A n ) = lim n → ∞ P ( A n ) P(\lim_{n\to \infty}A_n) = \lim_{n\to \infty} P(A_n)
P ( n → ∞ lim A n ) = n → ∞ lim P ( A n )
我们接下来证明这个结论。
1.4:条件概率与事件的独立性
1.4.1:条件概率
定义条件概率:P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A B ) 代表在 B B B 发生的前提下 A A A 发生的概率。上述公式写成乘法的形式称为乘法公式。也就是 P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A )
推广到 n 个事件的乘法公式:P ( A 1 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 . . . A n − 1 ) P(A_1...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1...A_{n-1}) P ( A 1 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 . . . A n − 1 )
1.4.2:全概率公式、贝叶斯公式
若想用严谨的语言描述这两个公式,先给出一个完备事件组的定义:完备事件组 { A 1 , A 2 , . . . , A n , . . . } \{A_1,A_2,...,A_n,...\} { A 1 , A 2 , . . . , A n , . . . } 满足两个条件
A i A_i A i 两两互不相容,且概率均大于 0;
∑ i = 1 ∞ A i = Ω \sum\limits_{i=1}^{\infty} A_i = \Omega i = 1 ∑ ∞ A i = Ω
全概率公式 :对于一个完备事件组,有 P ( B ) = ∑ i = 1 ∞ P ( A i ) P ( B ∣ A i ) P(B) = \sum\limits_{i=1}^{\infty}P(A_i)P(B|A_i) P ( B ) = i = 1 ∑ ∞ P ( A i ) P ( B ∣ A i )
这个式子是非常直观的,就是因为 A i A_i A i 是完备的,因此必有一个发生,所以可以写成概率相加的形式。我们来证明她。
P ( B ) = P ( B Ω ) = P ( B ∑ i = 1 ∞ A i ) = P ( ∑ i = 1 ∞ A i B ) P(B)=P(B \Omega)=P(B\sum\limits_{i=1}^{\infty}A_i)=P(\sum\limits_{i=1}^{\infty}A_iB)
P ( B ) = P ( B Ω ) = P ( B i = 1 ∑ ∞ A i ) = P ( i = 1 ∑ ∞ A i B )
因为 A i A_i A i 两两互不相容,A i B A_iB A i B 作为 A i A_i A i 的子集必定也两两互不相容,因此原式
= ∑ i = 1 ∞ P ( A i B ) = ∑ i = 1 ∞ P ( A i ) P ( B ∣ A i ) =\sum\limits_{i=1}^{\infty}P(A_iB)= \sum\limits_{i=1}^{\infty}P(A_i)P(B|A_i)
= i = 1 ∑ ∞ P ( A i B ) = i = 1 ∑ ∞ P ( A i ) P ( B ∣ A i )
得证!可以看到概率公理的证明经常是并上几个 ∅ \emptyset ∅ 或者 Ω \Omega Ω 。
贝叶斯公式 :对于一个完备事件组,有:
P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ k = 1 ∞ P ( A k ) P ( B ∣ A k ) P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum\limits_{k=1}^{\infty}P(A_k)P(B|A_k)}
P ( A i ∣ B ) = k = 1 ∑ ∞ P ( A k ) P ( B ∣ A k ) P ( A i ) P ( B ∣ A i )
这个证明是非常显然的,P ( A i ∣ B ) = P ( A i B ) P ( B ) P(A_i|B)=\frac{P(A_iB)}{P(B)} P ( A i ∣ B ) = P ( B ) P ( A i B ) ,下面用全概率公式,上面用乘法公式展开就得到了。这个也被称为后验概率 。
1.4.3:事件的独立性
两个事件独立:P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P ( A ∣ B ) = P ( A ) ,也就是 P ( A ) P ( B ) = P ( A B ) P(A)P(B)=P(AB) P ( A ) P ( B ) = P ( A B ) 。
两个 σ \sigma σ 代数 A 1 , A 2 \mathbb{A}_1,\mathbb{A}_2 A 1 , A 2 独立:对于任意 A 1 ∈ A 1 , A 2 ∈ A 2 A_1 \in \mathbb{A}_1,A_2\in \mathbb{A}_2 A 1 ∈ A 1 , A 2 ∈ A 2 ,A 1 , A 2 A_1,A_2 A 1 , A 2 独立。
多个事件独立:对于任何 1 ≤ i 1 ≤ i 2 ≤ . . . ≤ i k 1\le i_1 \le i_2\le ... \le i_k 1 ≤ i 1 ≤ i 2 ≤ . . . ≤ i k ,P ( A i 1 A i 2 . . . A i n ) = P ( A i 1 ) . . . P ( A i n ) P(A_{i_1}A_{i_2}...A_{i_n})=P(A_{i_1})...P(A_{i_n}) P ( A i 1 A i 2 . . . A i n ) = P ( A i 1 ) . . . P ( A i n ) 。
注意两两独立不能推出多个事件独立,事实上多个事件独立这个条件 远强于 两两独立。
第一章到这里基本就结束啦,完结撒花!!
Chapter 2:随机变量与分布函数
现在开始,你遇到的描述就变得不初等了,也就是说,我们要跳出高中的概率思维来学习这一章的知识了.有前面的衔接,也不会很吃力!
2.1:离散型随机变量及其分布
2.1.1:随机变量的定义
我们定义随机变量 X X X 是关于样本点 ω \omega ω 的函数:X = X ( ω ) , ω ∈ Ω , X ( ω ) ∈ R X=X(\omega), \omega\in \Omega, X(\omega)\in \mathbb{R} X = X ( ω ) , ω ∈ Ω , X ( ω ) ∈ R 。
这里可能会让你感觉莫名其妙:什么叫关于样本点 ω \omega ω 的函数?这里给出一个例子:比如对于一个样本点 ω \omega ω 表示:取到了 3 3 3 个球,则 ω = 3 \omega = 3 ω = 3 ,那么 X ( ω ) = 3 X(\omega) = 3 X ( ω ) = 3 ,也就是 X X X 将样本点上的东西,映射到了一个数上面。那么对每个样本点都映射一次即可。
为什么要这样映射?因为样本点不一定是数啊。也可能是字母,汉字,等等等。但是课程中不太会用到这种严格性的定义,所以了解就好。后面也基本只在定义的时候会提到这种定义。
有了这个做铺垫,我们给出随机变量的数学定义:
设 ξ ω \xi {\omega} ξ ω 是定义在概率空间 { Ω , F , P } \{\Omega,F,P\} { Ω , F , P } 上的单值实函数,且对于 R 上的任意一个博雷尔集 B B B ,均有:
ξ − 1 ( B ) = { ω : ξ ( ω ) ∈ B } ∈ F \xi ^{-1} (B) = \{\omega:\xi(\omega) \in B\} \in F
ξ − 1 ( B ) = { ω : ξ ( ω ) ∈ B } ∈ F
此时 ξ ( ω ) \xi (\omega) ξ ( ω ) 为随机变量,P ( ξ ( ω ) ∈ B ) P(\xi(\omega) \in B) P ( ξ ( ω ) ∈ B ) 称之为她的概率分布。
这里可以用直观地理解方式来定义随机变量:因为一维概率空间基本都是在博雷尔集上定义的,因此如果每个博雷尔集能对应上一个事件,那么她就是一个随机变量。 ξ − 1 ( B ) \xi^{-1}(B) ξ − 1 ( B ) 相当于一个反映射(虽然不一定是一一对应,就是按这么理解)
备注:{ ω : ξ ( ω ) ∈ B } \{\omega:\xi(\omega) \in B\} { ω : ξ ( ω ) ∈ B } 有时候会写成 { ξ ( ω ) ∈ B } \{\xi(\omega) \in B\} { ξ ( ω ) ∈ B } 或者 { ξ ∈ B } \{\xi \in B \} { ξ ∈ B } ,看到这种表述不要转不过来就好。
2.1.2:离散型随机变量
我们定义 ξ \xi ξ 是离散型随机变量,当且仅当 ξ \xi ξ 的取值至多可列。
研究离散型随机变量主要是研究她的分布列:
x x 1 x 2 ⋯ x n ⋯ P ( X = x ) p 1 p 2 ⋯ p n ⋯ \begin{array}{c|cccc}
x & x_1 & x_2 & \cdots & x_n & \cdots \\ \hline
P(X=x) & p_1 & p_2 & \cdots & p_n & \cdots
\end{array}
x P ( X = x ) x 1 p 1 x 2 p 2 ⋯ ⋯ x n p n ⋯ ⋯
下面介绍一些常用的分布。
2.1.2.1:退化分布
没什么好讲的,就是 P ( ξ = c ) = 1. P(\xi = c) = 1. P ( ξ = c ) = 1 .
2.1.2.2:两点分布
分布列如下:
x x 1 x 2 P ( X = x ) p q , p + q = 1 \begin{array}{c|cccc}
x & x_1 & x_2 \\ \hline
P(X=x) & p & q
\end{array}
\ \ \ \ ,p+q=1
x P ( X = x ) x 1 p x 2 q , p + q = 1
一般来说会让 x 1 = 1 , x 2 = 0 x_1=1,x_2=0 x 1 = 1 , x 2 = 0 .
2.1.2.3:二项分布
分布列:
P ( ξ = k ) = ( n k ) p k q n − k , p + q = 1 , p , q > 0. P(\xi = k) = \binom{n}{k} p^k q^{n-k}
\ \ \ \ , p+q=1\ \ \ \ , p,q>0.
P ( ξ = k ) = ( k n ) p k q n − k , p + q = 1 , p , q > 0 .
因为是 ( p + q ) n (p+q)^n ( p + q ) n 的二项展开,因此称之为二项分布。
二项分布有非常多的性质,接下来我列举一下。
b ( k , n , p ) = b ( n − k , n , 1 − p ) b(k,n,p)=b(n-k,n,1-p) b ( k , n , p ) = b ( n − k , n , 1 − p ) . 原因是组合数的性质 ( n k ) = ( n n − k ) \binom{n}{k}=\binom{n}{n-k} ( k n ) = ( n − k n ) ;
二项分布的单调性:b ( k , n , p ) b ( k − 1 , n , p ) = 1 + ( n + 1 ) p − k q k \frac{b(k,n,p)}{b(k-1,n,p)}=1+\frac{(n+1)p-k}{qk} b ( k − 1 , n , p ) b ( k , n , p ) = 1 + q k ( n + 1 ) p − k ,因此 k < ( n + 1 ) p k<(n+1)p k < ( n + 1 ) p 时,b ( k , n , p ) b(k,n,p) b ( k , n , p ) 单增;k > ( n + 1 ) p k>(n+1)p k > ( n + 1 ) p 时,b ( k , n , p ) b(k,n,p) b ( k , n , p ) 单减。
所以如果 ( n + 1 ) p ∈ Z (n+1)p\in \mathbb{Z} ( n + 1 ) p ∈ Z ,令 k = ( n + 1 ) p k=(n+1)p k = ( n + 1 ) p ,则极值点在 k k k 和 k − 1 k-1 k − 1 的时候取到。
否则,极值点在 [ n + 1 p ] [\frac{n+1}{p}] [ p n + 1 ] 的时候取到。
二项分布的泊松逼近
如果存在 λ \lambda λ ,使得 n → ∞ n\to \infty n → ∞ 的时候,n p n → λ np_n\to \lambda n p n → λ ,那么此时有
lim n → ∞ b ( k , n , p ) = λ k k ! e − λ \lim_{n\to \infty} b(k,n,p) = \frac{\lambda^k}{k!}e^{-\lambda}
n → ∞ lim b ( k , n , p ) = k ! λ k e − λ
证明:直接展开式子得:
b ( k , n , p ) = ( n k ) p n k ( 1 − p n ) n − k = n ( n − 1 ) . . . ( n − k + 1 ) k ! ( λ n n ) k ( 1 − λ n n ) n − k = λ n k k ! n ( n − 1 ) . . . ( n − k + 1 ) n k ( 1 − λ n n ) n − k → λ k k ! e − λ b(k,n,p)=\binom{n}{k} p_n^k (1-p_n)^{n-k}\\
=\frac{n(n-1)...(n-k+1)}{k!} \left(\frac{\lambda_n}{n}\right) ^k \left(1-\frac{\lambda_n}{n}\right)^{n-k} \\
=\frac{\lambda_n^k}{k!} \frac{n(n-1)...(n-k+1)}{n^k} \left(1-\frac{\lambda_n}{n}\right)^{n-k}\\
\to \frac{\lambda^k}{k!}e^{-\lambda}
b ( k , n , p ) = ( k n ) p n k ( 1 − p n ) n − k = k ! n ( n − 1 ) . . . ( n − k + 1 ) ( n λ n ) k ( 1 − n λ n ) n − k = k ! λ n k n k n ( n − 1 ) . . . ( n − k + 1 ) ( 1 − n λ n ) n − k → k ! λ k e − λ
最后一个等式因为:第二项趋近于 1 1 1 ,第三项趋近于 e − λ e^{-\lambda} e − λ 。
虽然大部分情况 p p p 和 n n n 是没有关系的,因此这个泊松分布的前提条件根本不可能满足。但实际上,只要 n n n 很大,p p p 很小,n p np n p 不是很大的时候,就能用泊松分布来很好地逼近二项分布。
取 n p = λ np=\lambda n p = λ 即可,此时
b ( k , n , p ) ≊ ( n p ) k k ! e − n p b(k,n,p) \approxeq \frac{(np)^k}{k!}e^{-np}
b ( k , n , p ) ≊ k ! ( n p ) k e − n p
二项分布的正态逼近:棣莫弗-拉普拉斯定理
是本节最难的地方,此定理是中心极限定理的一种特殊情况。
我们有 ξ n ∼ B ( n , p ) , p = p n , q = 1 − p n \xi_n \sim B(n,p), p=p_n, q=1-p_n ξ n ∼ B ( n , p ) , p = p n , q = 1 − p n ,满足 n p q → ∞ npq\to \infty n p q → ∞ .
那么对于任意有限区间 [ a , b ] [a,b] [ a , b ] ,记:
j = j ( n ) , x = x ( n ) = j − n p n p q j=j(n), x=x(n)=\frac{j-np}{\sqrt {npq}}
j = j ( n ) , x = x ( n ) = n p q j − n p
j ( n ) j(n) j ( n ) 是一个随 n n n 变化的东西,使得 x ( n ) x(n) x ( n ) 落在区间 [ a , b ] [a,b] [ a , b ] .
那么此时,对于 x ∈ [ a , b ] x\in [a,b] x ∈ [ a , b ] ,有:
P n ( x ) : = P ( ξ n = j ) ∼ 1 2 π n p q e − x 2 2 P_n(x) := P(\xi_n = j) \sim \frac{1}{\sqrt{2\pi npq}} e^{-\frac{x^2}{2}}
P n ( x ) : = P ( ξ n = j ) ∼ 2 π n p q 1 e − 2 x 2
我们接下来来证明这个结论。
令 k = n − j k=n-j k = n − j ,用 x x x 来反求 j , k j,k j , k 得到:
j = n p + x n p q , k = n q − x n p q j , k → ∞ j= np+x\sqrt{npq}, \ \ \ k=nq-x\sqrt{npq} \\
j,k \to \infty
j = n p + x n p q , k = n q − x n p q j , k → ∞
又有
P n ( x ) = ( n j ) p j q k = n ! j ! k ! p j q j P_n(x) = \binom{n}{j} p^j q^k = \frac{n!}{j!k!}p^j q^j
P n ( x ) = ( j n ) p j q k = j ! k ! n ! p j q j
斯特林公式(忽略了余项):
n ! = 2 π n ( n e ) n n! = \sqrt{2\pi n} \left(\frac{n}{e}\right)^n
n ! = 2 π n ( e n ) n
带入 P n ( x ) P_n(x) P n ( x ) 就得到:
P n ( x ) = 2 π n n n e − n 2 π j j j e − j 2 π k k k e − k p j q k P_n(x) = \frac{\sqrt{2\pi n} n^n e^{-n}}{\sqrt{2\pi j}j^j e^{-j} \sqrt{2\pi k} k^k e^{-k}}p^j q^k
P n ( x ) = 2 π j j j e − j 2 π k k k e − k 2 π n n n e − n p j q k
我们惊奇的发现 e e e 抵掉了!整理一下就得到:
P n ( x ) = 1 2 π n j k ( n p j ) j ( n q k ) k P_n(x) = \frac{1}{\sqrt{2\pi}} \sqrt{\frac{n}{jk}} \left(\frac{np}{j}\right)^j \left(\frac{nq}{k}\right)^k
P n ( x ) = 2 π 1 j k n ( j n p ) j ( k n q ) k
还记得我们写的 j , k j,k j , k 关于 x x x 反求的式子吗!我们将它一一代入:
j k n = ( n p + x n p q ) ( n q − x n p q ) n = n p q ( 1 + x ( q − p ) 1 n p q − x 2 n ) \frac{jk}{n} = \frac{(np+x\sqrt{npq})(nq-x\sqrt{npq})}{n} = npq(1+x(q-p)\sqrt{\frac{1}{npq}}-\frac{x^2}{n})
n j k = n ( n p + x n p q ) ( n q − x n p q ) = n p q ( 1 + x ( q − p ) n p q 1 − n x 2 )
由于 x x x 是一个有界的东西,因此后面两项都趋于 0 0 0 ,所以 j k n \frac{jk}{n} n j k 趋于 n p q npq n p q .
同时,我们还有:
j n p = 1 + x q n p , k n p = 1 − x p n q \frac{j}{np} = 1+x\sqrt{\frac{q}{np}}, \ \ \ \ \frac{k}{np}=1-x\sqrt{\frac{p}{nq}}
n p j = 1 + x n p q , n p k = 1 − x n q p
那我们把 P n ( x ) P_n(x) P n ( x ) 后面两项单独拉出来,记作 S S S ,则有:
ln S = − ( j ln j n p + k ln k n q ) \ln S = -(j \ln \frac{j}{np} + k \ln \frac{k}{nq})
ln S = − ( j ln n p j + k ln n q k )
然后呢,因为 j n p , k n q \frac{j}{np}, \frac{k}{nq} n p j , n q k 有非常漂亮的 1 + t 1+t 1 + t 的形式,将她 泰勒展开 :
− ln S = ( n p + x n p q ) [ x q n p − q x 2 2 n p + O ( q n p 3 2 ) ] + ( n q − x n p q ) [ − p n q − p x 2 2 n q + O ( p n q 3 2 ) ] -\ln S = \left(np+x\sqrt{npq} \right) \left[x\sqrt{\frac{q}{np}} - \frac{qx^2}{2np}+O(\frac{q}{np}^{\frac{3}{2}})\right] + \left(nq-x\sqrt{npq} \right) \left[-\sqrt{\frac{p}{nq}} - \frac{px^2}{2nq}+O(\frac{p}{nq}^{\frac{3}{2}})\right]
− ln S = ( n p + x n p q ) [ x n p q − 2 n p q x 2 + O ( n p q 2 3 ) ] + ( n q − x n p q ) [ − n q p − 2 n q p x 2 + O ( n q p 2 3 ) ]
把它展开,发现都抵掉了,只剩下了
− ln S = x 2 2 + O ( 1 n p q ) -\ln S = \frac{x^2}{2} +O(\frac{1}{\sqrt{npq}})
− ln S = 2 x 2 + O ( n p q 1 )
因此:
P n ( x ) ∼ 1 2 π e S n j k ∼ 1 2 π n p q e − x 2 2 P_n(x) \sim \frac{1}{\sqrt{2\pi}} e^S \sqrt{\frac{n}{jk}} \sim \frac{1}{\sqrt{2\pi npq}} e^{-\frac{x^2}{2}}
P n ( x ) ∼ 2 π 1 e S j k n ∼ 2 π n p q 1 e − 2 x 2
命题得证!!!
有一个有趣的事实:本来正态分布是要叫高斯分布的,因为是高斯用似然估计导出的分布。但是呢人们发现棣莫弗-拉普拉斯定理已经发现过这个分布了,因此就叫正态分布(Normal Distribution)了,后续会介绍。
此时,我们还可以把定理写成以下的积分结果,其实就是标准正态分布的积分:
P ( a ≤ ξ n − n p n p q ≤ b ) → 1 2 π ∫ a b e − x 2 2 d x P\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) \to \frac{1}{\sqrt{2\pi}} \int_{a}^{b} e^{-\frac{x^2}{2}} dx
P ( a ≤ n p q ξ n − n p ≤ b ) → 2 π 1 ∫ a b e − 2 x 2 d x
这个证明有前一个定理的基础就比较容易了。我们记
x n , j = j − n p n p q , x n , j − x n , j − 1 = 1 n p q . x_{n,j}=\frac{j-np}{\sqrt{npq}}, x_{n,j}-x{n,j-1} = \frac{1}{\sqrt{npq}}.
x n , j = n p q j − n p , x n , j − x n , j − 1 = n p q 1 .
所以有:
P ( a ≤ ξ n − n p n p q ≤ b ) = ∑ x n , j ∈ [ a , b ] P n ( x n , j ) = ∑ x n , j ∈ [ a , b ] 1 2 π n p q e − x n , j 2 2 = 1 2 π ∑ x n , j ∈ [ a , b ] e − x n , j 2 2 ( x n , j − x n , j − 1 ) P\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) = \sum\limits_{x_{n,j}\in [a,b]} P_n(x_{n,j}) \\
= \sum\limits_{x_{n,j}\in [a,b]} \frac{1}{\sqrt{2\pi npq}}e^{-\frac{x_{n,j}^2}{2}} \\
= \frac{1}{\sqrt{2\pi }} \sum\limits_{x_{n,j}\in [a,b]} e^{-\frac{x_{n,j}^2}{2}} (x_{n,j}-x_{n,j-1})
P ( a ≤ n p q ξ n − n p ≤ b ) = x n , j ∈ [ a , b ] ∑ P n ( x n , j ) = x n , j ∈ [ a , b ] ∑ 2 π n p q 1 e − 2 x n , j 2 = 2 π 1 x n , j ∈ [ a , b ] ∑ e − 2 x n , j 2 ( x n , j − x n , j − 1 )
我们惊奇的发现这就是个黎曼积分的形式!于是就得到了
P ( a ≤ ξ n − n p n p q ≤ b ) → 1 2 π ∫ a b e − x 2 2 d x P\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) \to \frac{1}{\sqrt{2\pi}} \int_{a}^{b} e^{-\frac{x^2}{2}} dx
P ( a ≤ n p q ξ n − n p ≤ b ) → 2 π 1 ∫ a b e − 2 x 2 d x
至此,棣莫弗-拉普拉斯定理的积分形式就得证了,我们似乎终于讲完了二项分布。
2.1.2.4:泊松分布
分布列:
P ( ξ = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , . . . , P(\xi = k) = \frac{\lambda^k}{k!}e^{-\lambda}\ \ \ , k=0,1,2,...,
P ( ξ = k ) = k ! λ k e − λ , k = 0 , 1 , 2 , . . . ,
泊松分布的用处一般用在拟合其他分布,下面介绍一下能拟合的场景:
如果有 n n n 个事件 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A 1 , A 2 , . . . , A n ,他们的相依程度很小、或者独立,那么这些事件发生的次数近似服从泊松分布 P ( λ ) , λ = ∑ i = 1 n p i P(\lambda), \lambda = \sum\limits_{i=1}^{n}p_i P ( λ ) , λ = i = 1 ∑ n p i 。
例子 :生日悖论中一共 ( n 2 ) \binom{n}{2} ( 2 n ) 个事件,所以用 λ = ( n 2 ) 365 \lambda = \frac{\binom{n}{2}}{365} λ = 3 6 5 ( 2 n ) 的泊松分布来拟合,可以导出同样的结果。
2.1.2.5:几何分布
分布列:
P ( ξ = k ) = p q k − 1 , p + q = 1 , p , q > 0 P(\xi = k)=pq^{k-1}, p+q=1, p,q>0
P ( ξ = k ) = p q k − 1 , p + q = 1 , p , q > 0
她的意义就是:在伯努利试验中,第一次试验成功的累计试验次数。
几何分布的性质:
几何分布具有无记忆性
证明:
P ( ξ > m + k ∣ ξ > m ) = P ( ξ > m + k ) P ( ξ > m ) = P ( ξ > k ) . P(\xi > m+k|\xi > m) = \frac{P(\xi > m+k)}{P(\xi > m)} = P(\xi > k).
P ( ξ > m + k ∣ ξ > m ) = P ( ξ > m ) P ( ξ > m + k ) = P ( ξ > k ) .
取正整数值并且具有无记忆性的随机变量服从几何分布
证明:如果有
P ( ξ > m + k ∣ ξ > m ) = P ( ξ > m + k ) P ( ξ > m ) = P ( ξ > k ) P(\xi > m+k|\xi > m) = \frac{P(\xi > m+k)}{P(\xi > m)} = P(\xi > k)
P ( ξ > m + k ∣ ξ > m ) = P ( ξ > m ) P ( ξ > m + k ) = P ( ξ > k )
那么令 k = 1 k=1 k = 1 得到:
P ( ξ = n + 1 ) P ( ξ = n ) = t , t = 1 − P ( ξ = 0 ) \frac{P(\xi = n+1)}{P(\xi = n)} = t, t=1-P(\xi = 0)
P ( ξ = n ) P ( ξ = n + 1 ) = t , t = 1 − P ( ξ = 0 )
这个东西是等比的,做个差分就可以导出几何分布的形式了。
2.1.2.6:帕斯卡分布(负二项分布)
分布列:
P ( ξ = k ) = ( k − 1 r − 1 ) p r q k − r , p + q = 1 P(\xi = k) = \binom{k-1}{r-1}p^rq^{k-r}, p+q=1
P ( ξ = k ) = ( r − 1 k − 1 ) p r q k − r , p + q = 1
代表:伯努利概型中,直到第r次成功的试验次数。然后用组合意义就可以写出这个式子了。
可以看出几何分布是帕斯卡分布的一个特殊情况。
2.1.2.7:超几何分布
分布列:
P ( ξ = k ) = ( M K ) ( N − M N − k ) ( N n ) k = 0 , 1 , . . . , min { n , M } P(\xi =k) = \frac{\binom{M}{K}\binom{N-M}{N-k}}{\binom{N}{n}} \\
k=0,1,...,\min\{n,M\}
P ( ξ = k ) = ( n N ) ( K M ) ( N − k N − M ) k = 0 , 1 , . . . , min { n , M }
也就是 N N N 个产品有 M M M 个次品,抽样 n n n 件,次品个数的分布列。
因为概率之和加起来是 1 1 1 ,因此我们得到了一个奇妙的组合恒等式(也称之为范德蒙德卷积):
( M 0 ) ( N − M n ) + ( M 1 ) ( N − M n − 1 ) + ⋯ + ( M n ) ( N − M 0 ) + = ( N N ) \binom{M}{0}\binom{N-M}{n}+\binom{M}{1}\binom{N-M}{n-1}+\cdots+\binom{M}{n}\binom{N-M}{0}+=\binom{N}{N}
( 0 M ) ( n N − M ) + ( 1 M ) ( n − 1 N − M ) + ⋯ + ( n M ) ( 0 N − M ) + = ( N N )
显然,超几何分布在 n n n 趋向于无穷的时候趋向于二项分布。
2.2:分布函数与连续型随机变量
2.2.1:分布函数
定义:记
F ( x ) = P ( ξ ≤ x ) , x ∈ ( − ∞ , ∞ ) F(x)=P(\xi \le x), x\in(-\infty,\infty)
F ( x ) = P ( ξ ≤ x ) , x ∈ ( − ∞ , ∞ )
为 ξ ( ω ) \xi(\omega) ξ ( ω ) 的分布函数。
因此,如果有了分布函数,那么对于任意一个博雷尔集,她的概率都可以计算了,那么显然有以下式子:
P ( a < ξ ≤ b ) = F ( b ) − F ( a ) P ( ξ < a ) = F ( a − 0 ) P ( ξ = a ) = F ( a ) − F ( a − 0 ) P ( ξ > a ) = F ( a ) − F ( a − 0 ) P(a<\xi \le b)=F(b)-F(a)\\
P(\xi < a)=F(a-0)\\
P(\xi = a)=F(a)-F(a-0)\\
P(\xi > a) = F(a)-F(a-0)
P ( a < ξ ≤ b ) = F ( b ) − F ( a ) P ( ξ < a ) = F ( a − 0 ) P ( ξ = a ) = F ( a ) − F ( a − 0 ) P ( ξ > a ) = F ( a ) − F ( a − 0 )
接下来,我们就要开始研究分布函数的性质了。分布函数具有以下性质:
单调不减性:a < b → F ( a ) ≤ F ( b ) a<b \to F(a)\le F(b) a < b → F ( a ) ≤ F ( b ) ,证明很显然,用概率的非负性;
lim x → − ∞ F ( x ) = 0 , lim x → ∞ F ( x ) = 1 \lim _{x\to -\infty}F(x) = 0, \lim_{x\to \infty}F(x) = 1 lim x → − ∞ F ( x ) = 0 , lim x → ∞ F ( x ) = 1
证明:lim − ∞ = lim n → − ∞ F ( n ) = P ( ∩ n = 1 ∞ { ξ ≤ − n } ) = P ( ∅ ) = 0 \lim_{-\infty} = \lim_{n\to -\infty}F(n) = P(\cap_{n=1}^{\infty}\{\xi \le -n\}) = P(\emptyset) = 0 lim − ∞ = lim n → − ∞ F ( n ) = P ( ∩ n = 1 ∞ { ξ ≤ − n } ) = P ( ∅ ) = 0 ,另一个等式证明方法一样。
F ( x + 0 ) = F ( x ) F(x+0)=F(x) F ( x + 0 ) = F ( x )
证明:只需证 lim n → ∞ F ( x + 1 n ) = F ( x ) \lim_{n\to \infty}F(x+\frac{1}{n})=F(x) lim n → ∞ F ( x + n 1 ) = F ( x ) . 显然有 L H S = lim n → ∞ P ( ξ ≤ x + 1 n ) = P ( ξ ≤ x ) = F ( x ) LHS = \lim_{n\to \infty}P(\xi \le x+\frac{1}{n}) = P(\xi \le x) = F(x) L H S = lim n → ∞ P ( ξ ≤ x + n 1 ) = P ( ξ ≤ x ) = F ( x ) .
并且符合这三个条件的函数必然是某个随机变量的分布函数。
离散型随机变量的分布函数是一堆横线组成的,我们主要需要考虑连续型随机变量的分布函数。
2.2.1:连续型随机变量的分布函数
定义:ξ \xi ξ 可以取某个区间内的一切值,存在一个可积函数 p ( x ) p(x) p ( x ) ,使得 F ( x ) F(x) F ( x ) 满足:
F ( x ) = ∫ − ∞ x p ( y ) d y F(x)=\int_{-\infty}^{x}p(y)dy
F ( x ) = ∫ − ∞ x p ( y ) d y
那么称 ξ \xi ξ 为连续型随机变量,p ( x ) p(x) p ( x ) 为 ξ \xi ξ 的密度函数。
密度函数的性质:
非负性:p ( x ) ≥ 0 p(x)\ge 0 p ( x ) ≥ 0
规范性:∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty}p(x)dx=1 ∫ − ∞ ∞ p ( x ) d x = 1
2.2.3:常见的连续型随机变量
2.2.3.1:均匀分布
a < b a<b a < b ,ξ \xi ξ 服从 [ a , b ] [a,b] [ a , b ] 上的均匀分布当且仅当密度函数为:
p ( x ) = 1 b − a [ a ≤ x ≤ b ] p(x) = \frac{1}{b-a} [a\le x\le b]
p ( x ) = b − a 1 [ a ≤ x ≤ b ]
这个比较简单,也没什么性质,就一笔带过了。
2.2.3.2:正态分布
密度函数:
p ( x ) = 1 2 π σ e − ( x − a ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-a)^2}{2\sigma^2}}
p ( x ) = 2 π σ 1 e − 2 σ 2 ( x − a ) 2
那么 $\xi $ 服从正态分布。记作 ξ ∼ N ( a , σ 2 ) \xi \sim N(a,\sigma^2) ξ ∼ N ( a , σ 2 ) 。
这个 p ( x ) p(x) p ( x ) 这么抽象,为什么是分布函数呢,我们给出如下的证明:
( 1 2 π σ ∫ − ∞ ∞ e − ( t − a ) 2 2 σ 2 d t ) 2 = ( 1 2 π ∫ − ∞ ∞ e − t 2 2 d t ) 2 = 1 2 π ∫ − ∞ ∞ ∫ − ∞ ∞ e − t 2 + s 2 2 d t d s \left(\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}e^{-\frac{(t-a)^2}{2\sigma^2}}dt \right)^2 = \left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\frac{t^2}{2}}dt \right)^2 \\
= \frac{1}{2\pi} \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{-\frac{t^2+s^2}{2}}dtds
( 2 π σ 1 ∫ − ∞ ∞ e − 2 σ 2 ( t − a ) 2 d t ) 2 = ( 2 π 1 ∫ − ∞ ∞ e − 2 t 2 d t ) 2 = 2 π 1 ∫ − ∞ ∞ ∫ − ∞ ∞ e − 2 t 2 + s 2 d t d s
第一步是通过换元得出来的。然后我们将她写成极坐标积分的形式:
= 1 2 π ∫ 0 2 π d θ ∫ 0 ∞ r e − r 2 2 d r = ∫ 0 ∞ r e − r 2 2 d r = 1 =\frac{1}{2\pi}\int_{0}^{2\pi}d\theta \int_{0}^{\infty}re^{-\frac{r^2}{2}}dr = \int_{0}^{\infty}re^{-\frac{r^2}{2}}dr = 1
= 2 π 1 ∫ 0 2 π d θ ∫ 0 ∞ r e − 2 r 2 d r = ∫ 0 ∞ r e − 2 r 2 d r = 1
于是得证了。
我们在 a = 0 , σ = 1 a=0,\sigma=1 a = 0 , σ = 1 的时候称之为标准正态分布,她的密度函数关于 y 轴对称。此时记:
ϕ ( x ) = 1 2 π e − x 2 2 , Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \phi (x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}, \Phi (x) = \int_{-\infty}^{x}\phi(t) dt
ϕ ( x ) = 2 π 1 e − 2 x 2 , Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t
对于一个随机变量 ξ ∼ N ( a , σ 2 ) \xi \sim N(a,\sigma^2) ξ ∼ N ( a , σ 2 ) ,我们称将她标准化 :
η = ξ − a σ , η ∼ N ( 0 , 1 ) \eta = \frac{\xi - a}{\sigma}, \eta \sim N(0,1)
η = σ ξ − a , η ∼ N ( 0 , 1 )
2.2.3.3:指数分布
密度函数:
p ( x ) = { λ e − λ x , x ≥ 0 , 0 , x < 0. p(x) =
\begin{cases}
\lambda e^{-\lambda x}, & x \ge 0,\\
0, & x < 0.
\end{cases}
p ( x ) = { λ e − λ x , 0 , x ≥ 0 , x < 0 .
通过积分很容易得出分布函数:
F ( x ) = { 1 − e − λ x , x ≥ 0 , 0 , x < 0. F(x) =
\begin{cases}
1-e^{-\lambda x}, & x \ge 0,\\
0, & x < 0.
\end{cases}
F ( x ) = { 1 − e − λ x , 0 , x ≥ 0 , x < 0 .
指数分布也具有一些性质:
无记忆性 :P ( ξ > s + t ∣ ξ > s ) = P ( ξ > t ) P(\xi >s+t|\xi >s)=P(\xi > t) P ( ξ > s + t ∣ ξ > s ) = P ( ξ > t ) ,证明比较容易,用分布函数证明就可以了
危险率函数是常函数 。
首先我们要引入危险率函数这个概念,他可以表示“现阶段死亡的概率相对大小”:
λ ( t ) = p ( t ) 1 − F ( t ) \lambda(t) = \frac{p(t)}{1-F(t)}
λ ( t ) = 1 − F ( t ) p ( t )
为什么这么定义呢?我们考虑先用自然语言来定义她:就是在某一刻趋于死亡的速率。
P ( X ∈ ( t + δ t ) ∣ x > t ) = P ( X ∈ ( t , t + δ t ) ) P ( X > t ) = p ( t ) 1 − F ( t ) δ t + o ( δ t ) = p ( t ) 1 − F ( t ) d t P(X \in (t+\delta t)|x>t) = \frac{P(X\in (t,t+\delta t))}{P(X>t)} \\
=\frac{p(t)}{1-F(t)}\delta t+o(\delta t)\\
=\frac{p(t)}{1-F(t)}dt
P ( X ∈ ( t + δ t ) ∣ x > t ) = P ( X > t ) P ( X ∈ ( t , t + δ t ) ) = 1 − F ( t ) p ( t ) δ t + o ( δ t ) = 1 − F ( t ) p ( t ) d t
因此危险率函数就定义成这个样子。
那么定义:
G ( t ) = 1 − F ( t ) − λ ( t ) = G ′ ( t ) G ( t ) G(t)=1-F(t)\\
-\lambda(t)=\frac{G'(t)}{G(t)}
G ( t ) = 1 − F ( t ) − λ ( t ) = G ( t ) G ′ ( t )
求一下积分:
− ∫ 0 t λ ( t ) = ln ( G ( t ) ) -\int_{0}^{t}\lambda(t) = \ln(G(t))
− ∫ 0 t λ ( t ) = ln ( G ( t ) )
所以 G ( t ) = − e ∫ 0 t λ ( t ) G(t) = -e^{\int_{0}^{t}\lambda(t)} G ( t ) = − e ∫ 0 t λ ( t ) ,于是我们就得到了:
F ( t ) = 1 − e − ∫ 0 t λ ( t ) F(t)=1-e^{-\int_{0}^{t}\lambda(t)}
F ( t ) = 1 − e − ∫ 0 t λ ( t )
然后就可以很快得出指数分布的危险率函数是常数了。
2.2.3.4:Γ \Gamma Γ 分布
密度函数:
p ( x ) = { λ r Γ ( r ) x r − 1 e − λ x , x ≥ 0 , 0 , x < 0. p(x) =
\begin{cases}
\frac{\lambda^r}{\Gamma(r)}x^{r-1}e^{-\lambda x}, & x \ge 0,\\
0, & x < 0.
\end{cases}
p ( x ) = { Γ ( r ) λ r x r − 1 e − λ x , 0 , x ≥ 0 , x < 0 .
Γ \Gamma Γ 是欧拉积分。
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x \Gamma(\alpha) = \int_{0}^{\infty }x^{\alpha-1}e^{-x}dx
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x
2.2.3.5:韦布尔分布
密度函数:
p ( x ) = { α σ ( x − μ σ ) α − 1 e − ( x − μ σ ) α , x > μ , 0 , x ≤ μ . p(x) =
\begin{cases}
\frac{\alpha}{\sigma}\left(\frac{x-\mu}{\sigma}\right)^{\alpha-1}e^{-\left(\frac{x-\mu}{\sigma}\right)^\alpha}, &x > \mu, \\
0, x\le \mu.
\end{cases}
p ( x ) = { σ α ( σ x − μ ) α − 1 e − ( σ x − μ ) α , 0 , x ≤ μ . x > μ ,
2.2.3.6:帕雷托分布
密度函数:
p ( x ) = { ( α − 1 ) x 0 α − 1 x − α , x > x 0 , 0 , x ≤ x 0 . p(x) =
\begin{cases}
(\alpha - 1)x_0^{\alpha - 1}x^{-\alpha}, & x >x_0,\\
0, & x \le x_0.
\end{cases}
p ( x ) = { ( α − 1 ) x 0 α − 1 x − α , 0 , x > x 0 , x ≤ x 0 .
2.2.3.7:β \beta β 分布
密度函数:
p ( x ) = { 1 B ( a , b ) x a − 1 ( 1 − x ) b − 1 , 0 ≤ x ≤ 1 , 0 , o t h e r w i s e . p(x) =
\begin{cases}
\frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1}, 0\le x\le 1,\\
0, & otherwise.
\end{cases}
p ( x ) = { B ( a , b ) 1 x a − 1 ( 1 − x ) b − 1 , 0 ≤ x ≤ 1 , 0 , o t h e r w i s e .
其中 B B B 是 beta 函数:
B ( a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) = ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x B(a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} = \int_{0}^{1}x^{a-1}(1-x)^{b-1}dx
B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) = ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x
2.2.3.8:柯西分布
密度函数:
p ( x ) = 1 π 1 1 + ( x − θ ) 2 p(x)=\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}
p ( x ) = π 1 1 + ( x − θ ) 2 1
或者更普适的:
p ( x ) = 1 π σ 1 1 + ( x − θ σ ) 2 p(x)=\frac{1}{\pi \sigma} \frac{1}{1+\left(\frac{x-\theta}{\sigma}\right)^2}
p ( x ) = π σ 1 1 + ( σ x − θ ) 2 1
2.3:随机向量
定义:ξ 1 ( ω ) , . . . , ξ n ( ω ) \xi_1(\omega),...,\xi_n(\omega) ξ 1 ( ω ) , . . . , ξ n ( ω ) 定义在同一个概率空间上,则称
ξ ( ω ) = ( ξ 1 ( ω ) , . . . , ξ n ( ω ) ) \xi(\omega) = (\xi_1(\omega),...,\xi_n(\omega))
ξ ( ω ) = ( ξ 1 ( ω ) , . . . , ξ n ( ω ) )
为 n 维随机向量。
2.3.2:分布函数
我们主要讨论二元随机向量的分布函数。二元随机向量的分布函数具有以下性质:
对于每个变量单调不减
对于每个变量右连续
F ( x , − ∞ ) = 0 F(x,-\infty) = 0 F ( x , − ∞ ) = 0 , F ( − ∞ , y ) = 0 F(-\infty,y) = 0 F ( − ∞ , y ) = 0 , F ( ∞ , ∞ ) = 1 F(\infty, \infty) = 1 F ( ∞ , ∞ ) = 1
对于任意实数 a 1 < b 1 , a 2 < b 2 a_1<b_1, a_2<b_2 a 1 < b 1 , a 2 < b 2 ,有 F ( b 1 , b 2 ) − F ( a 1 , b 2 ) − F ( b 1 , a 2 ) + F ( a 1 , a 2 ) ≥ 0 F(b_1,b_2)-F(a_1,b_2)-F(b_1,a_2)+F(a_1,a_2)\ge 0 F ( b 1 , b 2 ) − F ( a 1 , b 2 ) − F ( b 1 , a 2 ) + F ( a 1 , a 2 ) ≥ 0
第四个性质其实是概率的非负性,对应 P ( ξ ∈ ( a 1 , b 1 ] , η ∈ ( a 2 , b 2 ] ) P(\xi \in (a_1,b_1], \eta \in (a_2,b_2]) P ( ξ ∈ ( a 1 , b 1 ] , η ∈ ( a 2 , b 2 ] ) ,其实就是容斥原理(多还少补原理),可以推广到 n 维的情况。
我们定义边际分布函数 :
F ξ ( x ) = F ( x , ∞ ) F ( η ) ( y ) = F ( ∞ , y ) F_{\xi}(x)= F(x,\infty) \\
F_(\eta)(y) = F(\infty,y)
F ξ ( x ) = F ( x , ∞ ) F ( η ) ( y ) = F ( ∞ , y )
2.3.3:连续型随机向量
定义:若存在 n n n 元非负可积函数 p ( x 1 , x 2 , . . . , x n ) p(x_1,x_2,...,x_n) p ( x 1 , x 2 , . . . , x n ) 使得 ξ 1 , . . . ξ n \xi_1,...\xi_n ξ 1 , . . . ξ n 的联合分布函数可以表示为:
F ( x 1 , x 2 , . . . , x n ) = ∫ − ∞ x 1 ⋯ ∫ − ∞ x n p ( y 1 , . . . , y n ) d y 1 . . . d y n F(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_n}p(y_1,...,y_n)dy_1...dy_n
F ( x 1 , x 2 , . . . , x n ) = ∫ − ∞ x 1 ⋯ ∫ − ∞ x n p ( y 1 , . . . , y n ) d y 1 . . . d y n
那么称之为连续型随机变量,p 称之为分布函数。