25学年浙江大学概率论(3.5学分)学习笔记

记录的顺序大体按照张立新老师的授课顺序,参考了教材《概率论与随机过程》上册与张立新老师的ppt。
右侧有标签索引,可以快速定位内容qwq。

Chapter 0:前言

因为路就在那里。

为什么学统计? 也许是当时脑子一热,想给自己找点事干,因此就这么仓促的做出了这么一个决定:辅修统计学!辅修学位!
可能是我本身对数学的兴趣使然。但是呢,我从高中开始就没选择数学竞赛,然后大学出于某些原因也没有选择数学专业,我又是个没有自驱力的人,因此,辅修可能是我唯一一次系统化学习数学的机会了。
概率论是我第一门专业课,希望能记录一套完整的笔记,起一个好头,未来能在 blog 里记下每一个数学专业课的笔记。

Chapter 1:事件与概率

接下来的内容你可能在高中接触过,或许会认为非常简单。但是这一章还是很重要,他把你高中接触的概率语言翻译成了严谨的数学语言。是高中与大学的过渡。

1.1:随机现象与统计规律性

频率的定义:FN(A)=nNF_N(A) = \frac{n}{N}
频率的性质:

  1. 非负性:FN(A)0F_N(A)\ge 0
  2. 规范性:FN(Ω)=1F_N(\Omega)=1
  3. 可加性:A,BA, B 互不相容,则 FN(A)+FN(B)=FN(A+B)F_N(A)+F_N(B)=F_N(A+B)

1.2:古典概型

古典概型的特征:

  1. 样本空间是有限的;
  2. 各个基本事件发生的概率的等概率的。

1.3:概率的公理化定义

1.3.2:概率空间

概率空间的三个要素:样本空间Ω\Omega,事件域FF,概率PP,这个三元体记作 (Ω,F,P)(\Omega, F, P)
事件域的性质:

  1. ΩF\Omega \in F
  2. AFA\in F,则 AF\overline{A}\in F
  3. A1,...,An,...FA_1,...,A_n,...\in F,则 i=1AiF\cup_{i=1}^{\infty}A_i \in F
  4. F\emptyset\in F
  5. A1,...,An,...FA_1,...,A_n,...\in F,则 i=1AiF\cap_{i=1}^{\infty}A_i \in F
    证明: i=1Ai=i=1Ai\cap_{i=1}^{\infty}A_i =\overline{\cup_{i=1}^{\infty}\overline{A_i}},再由 3、2 推出。
  6. A1,...,AnFA_1,...,A_n\in F,则 i=1nAiF\cap_{i=1}^{n}A_i \in F
    证明:在 A 序列补空集,运用 3 即可证明。

一维博雷尔集:Ω=R\Omega = \mathbb{R},取一切左开右闭区间和他们的交并补形成的事件域。

概率的定义:概率是定义在事件域上的实值函数,满足:

  1. P(A)0P(A)\ge 0
  2. P(Ω)=1P(\Omega)=1
  3. 可列可加性:若 A1,...,An,...A_1,...,A_n,... 互不相容,则 P(i=1Ai)=i=1P(Ai)P(\sum_{i=1}^{\infty} A_i)=\sum_{i=1}^{\infty}P(A_i)

概率的性质:

  1. P()=0P(\emptyset)=0
    证明:注意到 P(Ω)=P(Ω++...)=P(Ω)+P()+...P(\Omega)=P(\Omega+\emptyset+...)=P(\Omega)+P(\emptyset)+...
  2. 有限可加性:若任意 ij, AiAj=A_iA_j=\emptyset,则 P(i=1nAi)=i=1nP(Ai)P(\sum_{i=1}^{n} A_i)=\sum_{i=1}^{n}P(A_i)
    证明:注意到 P(i=1nAi)=P(i=1nAi++...)=i=1nP(Ai)+P()+...=i=1nP(Ai)P(\sum_{i=1}^{n}A_i)=P(\sum_{i=1}^{n}A_i+\emptyset+...)=\sum_{i=1}^{n}P(A_i)+P(\emptyset)+...=\sum_{i=1}^{n}P(A_i)
  3. P(A)=1P(A)P(\overline{A})=1-P(A)
    证明:AA=ΩA\cup \overline{A}=\Omega
  4. BAB\subset A,则 P(AB)=P(A)P(B)P(A-B)=P(A)-P(B),其中 P(AB)P(A-B) 定义为 ABA\cap \overline{B}
    证明:A=B+(AB)A=B+(A-B),因此 P(A)=P(B)+P(AB)P(A)=P(B)+P(A-B)
  5. P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(AB)
    证明:AB=A+(BAB)A\cup B=A+(B-AB)P(AB)=P(A)+P(BAB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B-AB)=P(A)+P(B)-P(AB)
  6. P(A\B)=P(A)-P(AB)
  7. 较为重要 多还少补原理(容斥原理):P(A1A2...An)=i=1nP(Ai)1i<jnP(AiAj)+...+(1)nP(A1A2...An)P(A_1\cup A_2\cup ... \cup A_n)=\sum\limits_{i=1}^{n}P(A_i)-\sum\limits_{1\le i< j \le n}P(A_iA_j)+...+(-1)^n P(A_1A_2...A_n)
    证明:考虑使用数学归纳法。n=2n=2 的时候,由性质5显然成立。
    n>2n>2 且对 n1n-1 成立,那么 P(A1A2...An)=P((A1...An1)An)P(A_1\cup A_2\cup ...\cup A_n)=P((A_1\cup ...\cup A_{n-1})\cup A_{n}),用一次性质5,原式 =P(A1...An1)+P(An)P((A1...An1)An)=P(A1...An1)+P(An)P((A1An)...(An1An))=P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n})=P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cap A_n)\cup ...\cup (A_{n-1}\cap A_n))。 变形成这样后对这个式子第一项和第三项都用一次 n1n-1 的结论即可,空间原因就不赘述了,展开后就得到归纳成立。
    ps1:如果交换交并符号,容斥原理仍然成立。即P(A1A2...An)=i=1nP(Ai)1i<jnP(AiAj)+...+(1)nP(A1A2...An)P(A_1\cap A_2\cap ... \cap A_n)=\sum\limits_{i=1}^{n}P(A_i)-\sum\limits_{1\le i< j \le n}P(A_i\cup A_j)+...+(-1)^n P(A_1\cup A_2\cup ...\cup A_n)
  8. 次可加性P(A1...An)P(A1)+P(A2)+...+P(An)P(A_1\cup ...\cup A_n)\le P(A_1)+P(A_2)+...+P(A_n)
    证明:考虑使用数学归纳法。n=2n=2 的时候,由性质5显然成立。
    n>2n>2 且对 n1n-1 成立,那么原式 =P(A1...An1)+P(An)P((A1...An1)An)P(A1)+...+P(An1)+P(An)P((A1...An1)An)P(A1)+...+P(An1)+P(An)=P(A_1\cup ...\cup A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n})\le P(A_1)+...+P(A_{n-1})+P(A_n)-P((A_1\cup ...\cup A_{n-1})\cap A_{n}) \le P(A_1)+...+P(A_{n-1})+P(A_n)。因此归纳成立。
    ps2:实际上 78 都可以用示性函数+组合数来快速证明出来,8还可以推广成前两项、三项、... 感兴趣的可以了解一下,如果有空我会在后面补充一下这方面的知识。

1.3.3 概率测度的连续性:

这块的内容还是比较抽象的,绝对是概率论第一章最难理解的部分。
不妨令 A1A2...An...A_1 \subset A_2 \subset...\subset A_n\subset ...,记 A=n=1AnA=\cup _{n=1}^{\infty} A_n ,那么我们称 AAAnA_n极限。显然 AA 是事件,我们要研究的是 AA 的概率。

Lemma 1:P(A)=limnP(An)\text{Lemma 1}: P(A)=\lim_{n\to \infty} P(A_n)

我们称上面的式子为:概率的下连续性
证明:我们令 Bn=AnAn1B_n = A_n-A_{n-1},于是 A=A1B2B3...A=A_1\cup B_2\cup B_3\cup ...,显然这个事件列是互不相容的。所以

P(A)=P(A1)+limnk=2nP(Bk)P(A)=P(A_1)+\lim_{n\to \infty}\sum\limits_{k=2}^{n}P(B_k)

P(Bk)=P(Ak)P(Ak1)P(B_k)=P(A_k)-P(A_{k-1}),于是导出 P(A)=limnP(An)P(A)=\lim_{n\to \infty}P(A_n)
同理可得概率的上连续性:如果 AnA_n 单调减少,记 A=n=1AnA=\cap _{n=1}^{\infty} A_n ,那么 P(A)=limnP(An)P(A)=\lim_{n\to \infty} P(A_n)

以上都是针对单调事件,于是仿照数列极限,事件的上下极限的概念就呼之欲出了:

liminfnAn=n=1m=nAm\lim \inf _{n\to \infty} A_n = \cup _{n=1}^{\infty} \cap_{m=n}^{\infty} A_m

limsupnAn=n=1m=nAm\lim \sup _{n\to \infty} A_n = \cap _{n=1}^{\infty} \cup_{m=n}^{\infty} A_m

其中下极限表示的是:至多有限不发生。上极限表示的是:无限发生。根据这个字面意思肯定有下极限属于上极限,我们接下来用数学语言证明一下。

我们取任意一个事件 ωliminfnAn=n=1m=nAm\omega \in \lim \inf _{n\to \infty} A_n = \cup _{n=1}^{\infty} \cap_{m=n}^{\infty} A_m,那么根据定义,存在一个 NN,使得 n>Nn>N 的时候,均有 ωAn\omega \in A_n
于是对于任意 nn,我们取 k=max(n,N+1)k = \max(n, N+1),则有 ωAk\omega \in A_k,那么必有 ωm=nAm\omega \in \cup_{m=n}^{\infty} A_m
因此必有 ωlimsupnAn=n=1m=nAm\omega \in \lim \sup _{n\to \infty} A_n = \cap _{n=1}^{\infty} \cup_{m=n}^{\infty} A_m
于是我们得到了:

liminfnAnlimsupnAn\lim \inf _{n\to \infty} A_n \subset \lim \sup _{n\to \infty} A_n

所以我们定义极限存在:如果 liminfnAn=limsupnAn\lim \inf _{n\to \infty} A_n = \lim \sup _{n\to \infty} A_n,那么 AnA_n 极限存在。如果 AnA_n 极限存在,那么有:

P(limnAn)=limnP(An)P(\lim_{n\to \infty}A_n) = \lim_{n\to \infty} P(A_n)

我们接下来证明这个结论。

1.4:条件概率与事件的独立性

1.4.1:条件概率

定义条件概率:P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)} 代表在 BB 发生的前提下 AA 发生的概率。上述公式写成乘法的形式称为乘法公式。也就是 P(AB)=P(AB)P(B)=P(BA)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)
推广到 n 个事件的乘法公式:P(A1...An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1...An1)P(A_1...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1...A_{n-1})

1.4.2:全概率公式、贝叶斯公式

若想用严谨的语言描述这两个公式,先给出一个完备事件组的定义:完备事件组 {A1,A2,...,An,...}\{A_1,A_2,...,A_n,...\}满足两个条件

  1. AiA_i 两两互不相容,且概率均大于 0;
  2. i=1Ai=Ω\sum\limits_{i=1}^{\infty} A_i = \Omega

全概率公式:对于一个完备事件组,有 P(B)=i=1P(Ai)P(BAi)P(B) = \sum\limits_{i=1}^{\infty}P(A_i)P(B|A_i)
这个式子是非常直观的,就是因为 AiA_i 是完备的,因此必有一个发生,所以可以写成概率相加的形式。我们来证明她。

P(B)=P(BΩ)=P(Bi=1Ai)=P(i=1AiB)P(B)=P(B \Omega)=P(B\sum\limits_{i=1}^{\infty}A_i)=P(\sum\limits_{i=1}^{\infty}A_iB)

因为 AiA_i 两两互不相容,AiBA_iB 作为 AiA_i 的子集必定也两两互不相容,因此原式

=i=1P(AiB)=i=1P(Ai)P(BAi)=\sum\limits_{i=1}^{\infty}P(A_iB)= \sum\limits_{i=1}^{\infty}P(A_i)P(B|A_i)

得证!可以看到概率公理的证明经常是并上几个 \emptyset 或者 Ω\Omega
贝叶斯公式:对于一个完备事件组,有:

P(AiB)=P(Ai)P(BAi)k=1P(Ak)P(BAk)P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum\limits_{k=1}^{\infty}P(A_k)P(B|A_k)}

这个证明是非常显然的,P(AiB)=P(AiB)P(B)P(A_i|B)=\frac{P(A_iB)}{P(B)},下面用全概率公式,上面用乘法公式展开就得到了。这个也被称为后验概率

1.4.3:事件的独立性

两个事件独立:P(AB)=P(A)P(A|B)=P(A),也就是 P(A)P(B)=P(AB)P(A)P(B)=P(AB)
两个 σ\sigma 代数 A1,A2\mathbb{A}_1,\mathbb{A}_2独立:对于任意 A1A1,A2A2A_1 \in \mathbb{A}_1,A_2\in \mathbb{A}_2A1,A2A_1,A_2 独立。
多个事件独立:对于任何 1i1i2...ik1\le i_1 \le i_2\le ... \le i_kP(Ai1Ai2...Ain)=P(Ai1)...P(Ain)P(A_{i_1}A_{i_2}...A_{i_n})=P(A_{i_1})...P(A_{i_n})
注意两两独立不能推出多个事件独立,事实上多个事件独立这个条件 远强于 两两独立。

第一章到这里基本就结束啦,完结撒花!!

Chapter 2:随机变量与分布函数

现在开始,你遇到的描述就变得不初等了,也就是说,我们要跳出高中的概率思维来学习这一章的知识了.有前面的衔接,也不会很吃力!

2.1:离散型随机变量及其分布

2.1.1:随机变量的定义

我们定义随机变量 XX 是关于样本点 ω\omega 的函数:X=X(ω),ωΩ,X(ω)RX=X(\omega), \omega\in \Omega, X(\omega)\in \mathbb{R}
这里可能会让你感觉莫名其妙:什么叫关于样本点 ω\omega 的函数?这里给出一个例子:比如对于一个样本点 ω\omega 表示:取到了 33 个球,则 ω=3\omega = 3,那么 X(ω)=3X(\omega) = 3,也就是 XX 将样本点上的东西,映射到了一个数上面。那么对每个样本点都映射一次即可。
为什么要这样映射?因为样本点不一定是数啊。也可能是字母,汉字,等等等。但是课程中不太会用到这种严格性的定义,所以了解就好。后面也基本只在定义的时候会提到这种定义。
有了这个做铺垫,我们给出随机变量的数学定义:
ξω\xi {\omega} 是定义在概率空间 {Ω,F,P}\{\Omega,F,P\} 上的单值实函数,且对于 R 上的任意一个博雷尔集 BB,均有:

ξ1(B)={ω:ξ(ω)B}F\xi ^{-1} (B) = \{\omega:\xi(\omega) \in B\} \in F

此时 ξ(ω)\xi (\omega) 为随机变量,P(ξ(ω)B)P(\xi(\omega) \in B) 称之为她的概率分布。
这里可以用直观地理解方式来定义随机变量:因为一维概率空间基本都是在博雷尔集上定义的,因此如果每个博雷尔集能对应上一个事件,那么她就是一个随机变量。 ξ1(B)\xi^{-1}(B) 相当于一个反映射(虽然不一定是一一对应,就是按这么理解)
备注:{ω:ξ(ω)B}\{\omega:\xi(\omega) \in B\} 有时候会写成 {ξ(ω)B}\{\xi(\omega) \in B\} 或者 {ξB}\{\xi \in B \} ,看到这种表述不要转不过来就好。

2.1.2:离散型随机变量

我们定义 ξ\xi 是离散型随机变量,当且仅当 ξ\xi 的取值至多可列。

研究离散型随机变量主要是研究她的分布列:

xx1x2xnP(X=x)p1p2pn\begin{array}{c|cccc} x & x_1 & x_2 & \cdots & x_n & \cdots \\ \hline P(X=x) & p_1 & p_2 & \cdots & p_n & \cdots \end{array}

下面介绍一些常用的分布。

2.1.2.1:退化分布

没什么好讲的,就是 P(ξ=c)=1.P(\xi = c) = 1.

2.1.2.2:两点分布

分布列如下:

xx1x2P(X=x)pq    ,p+q=1\begin{array}{c|cccc} x & x_1 & x_2 \\ \hline P(X=x) & p & q \end{array} \ \ \ \ ,p+q=1

一般来说会让 x1=1,x2=0x_1=1,x_2=0.

2.1.2.3:二项分布

分布列:

P(ξ=k)=(nk)pkqnk    ,p+q=1    ,p,q>0.P(\xi = k) = \binom{n}{k} p^k q^{n-k} \ \ \ \ , p+q=1\ \ \ \ , p,q>0.

因为是 (p+q)n(p+q)^n 的二项展开,因此称之为二项分布。
二项分布有非常多的性质,接下来我列举一下。

  1. b(k,n,p)=b(nk,n,1p)b(k,n,p)=b(n-k,n,1-p) . 原因是组合数的性质 (nk)=(nnk)\binom{n}{k}=\binom{n}{n-k}
  2. 二项分布的单调性:b(k,n,p)b(k1,n,p)=1+(n+1)pkqk\frac{b(k,n,p)}{b(k-1,n,p)}=1+\frac{(n+1)p-k}{qk},因此 k<(n+1)pk<(n+1)p 时,b(k,n,p)b(k,n,p) 单增;k>(n+1)pk>(n+1)p 时,b(k,n,p)b(k,n,p) 单减。
    所以如果 (n+1)pZ(n+1)p\in \mathbb{Z},令 k=(n+1)pk=(n+1)p,则极值点在 kkk1k-1 的时候取到。
    否则,极值点在 [n+1p][\frac{n+1}{p}] 的时候取到。
  3. 二项分布的泊松逼近
    如果存在 λ\lambda,使得 nn\to \infty 的时候,npnλnp_n\to \lambda,那么此时有

limnb(k,n,p)=λkk!eλ\lim_{n\to \infty} b(k,n,p) = \frac{\lambda^k}{k!}e^{-\lambda}

证明:直接展开式子得:

b(k,n,p)=(nk)pnk(1pn)nk=n(n1)...(nk+1)k!(λnn)k(1λnn)nk=λnkk!n(n1)...(nk+1)nk(1λnn)nkλkk!eλb(k,n,p)=\binom{n}{k} p_n^k (1-p_n)^{n-k}\\ =\frac{n(n-1)...(n-k+1)}{k!} \left(\frac{\lambda_n}{n}\right) ^k \left(1-\frac{\lambda_n}{n}\right)^{n-k} \\ =\frac{\lambda_n^k}{k!} \frac{n(n-1)...(n-k+1)}{n^k} \left(1-\frac{\lambda_n}{n}\right)^{n-k}\\ \to \frac{\lambda^k}{k!}e^{-\lambda}

最后一个等式因为:第二项趋近于 11,第三项趋近于 eλe^{-\lambda}
虽然大部分情况 ppnn 是没有关系的,因此这个泊松分布的前提条件根本不可能满足。但实际上,只要 nn 很大,pp 很小,npnp 不是很大的时候,就能用泊松分布来很好地逼近二项分布。
np=λnp=\lambda 即可,此时

b(k,n,p)(np)kk!enpb(k,n,p) \approxeq \frac{(np)^k}{k!}e^{-np}

  1. 二项分布的正态逼近:棣莫弗-拉普拉斯定理
    是本节最难的地方,此定理是中心极限定理的一种特殊情况。
    我们有 ξnB(n,p),p=pn,q=1pn\xi_n \sim B(n,p), p=p_n, q=1-p_n ,满足 npqnpq\to \infty .
    那么对于任意有限区间 [a,b][a,b],记:

j=j(n),x=x(n)=jnpnpqj=j(n), x=x(n)=\frac{j-np}{\sqrt {npq}}

j(n)j(n) 是一个随 nn 变化的东西,使得 x(n)x(n) 落在区间 [a,b][a,b].
那么此时,对于 x[a,b]x\in [a,b],有:

Pn(x):=P(ξn=j)12πnpqex22P_n(x) := P(\xi_n = j) \sim \frac{1}{\sqrt{2\pi npq}} e^{-\frac{x^2}{2}}

我们接下来来证明这个结论。
k=njk=n-j,用 xx 来反求 j,kj,k 得到:

j=np+xnpq,   k=nqxnpqj,kj= np+x\sqrt{npq}, \ \ \ k=nq-x\sqrt{npq} \\ j,k \to \infty

又有

Pn(x)=(nj)pjqk=n!j!k!pjqjP_n(x) = \binom{n}{j} p^j q^k = \frac{n!}{j!k!}p^j q^j

斯特林公式(忽略了余项):

n!=2πn(ne)nn! = \sqrt{2\pi n} \left(\frac{n}{e}\right)^n

带入 Pn(x)P_n(x) 就得到:

Pn(x)=2πnnnen2πjjjej2πkkkekpjqkP_n(x) = \frac{\sqrt{2\pi n} n^n e^{-n}}{\sqrt{2\pi j}j^j e^{-j} \sqrt{2\pi k} k^k e^{-k}}p^j q^k

我们惊奇的发现 ee 抵掉了!整理一下就得到:

Pn(x)=12πnjk(npj)j(nqk)kP_n(x) = \frac{1}{\sqrt{2\pi}} \sqrt{\frac{n}{jk}} \left(\frac{np}{j}\right)^j \left(\frac{nq}{k}\right)^k

还记得我们写的 j,kj,k 关于 xx 反求的式子吗!我们将它一一代入:

jkn=(np+xnpq)(nqxnpq)n=npq(1+x(qp)1npqx2n)\frac{jk}{n} = \frac{(np+x\sqrt{npq})(nq-x\sqrt{npq})}{n} = npq(1+x(q-p)\sqrt{\frac{1}{npq}}-\frac{x^2}{n})

由于 xx 是一个有界的东西,因此后面两项都趋于 00,所以 jkn\frac{jk}{n} 趋于 npqnpq.
同时,我们还有:

jnp=1+xqnp,    knp=1xpnq\frac{j}{np} = 1+x\sqrt{\frac{q}{np}}, \ \ \ \ \frac{k}{np}=1-x\sqrt{\frac{p}{nq}}

那我们把 Pn(x)P_n(x) 后面两项单独拉出来,记作 SS,则有:

lnS=(jlnjnp+klnknq)\ln S = -(j \ln \frac{j}{np} + k \ln \frac{k}{nq})

然后呢,因为 jnp,knq\frac{j}{np}, \frac{k}{nq} 有非常漂亮的 1+t1+t 的形式,将她 泰勒展开

lnS=(np+xnpq)[xqnpqx22np+O(qnp32)]+(nqxnpq)[pnqpx22nq+O(pnq32)]-\ln S = \left(np+x\sqrt{npq} \right) \left[x\sqrt{\frac{q}{np}} - \frac{qx^2}{2np}+O(\frac{q}{np}^{\frac{3}{2}})\right] + \left(nq-x\sqrt{npq} \right) \left[-\sqrt{\frac{p}{nq}} - \frac{px^2}{2nq}+O(\frac{p}{nq}^{\frac{3}{2}})\right]

把它展开,发现都抵掉了,只剩下了

lnS=x22+O(1npq)-\ln S = \frac{x^2}{2} +O(\frac{1}{\sqrt{npq}})

因此:

Pn(x)12πeSnjk12πnpqex22P_n(x) \sim \frac{1}{\sqrt{2\pi}} e^S \sqrt{\frac{n}{jk}} \sim \frac{1}{\sqrt{2\pi npq}} e^{-\frac{x^2}{2}}

命题得证!!!
有一个有趣的事实:本来正态分布是要叫高斯分布的,因为是高斯用似然估计导出的分布。但是呢人们发现棣莫弗-拉普拉斯定理已经发现过这个分布了,因此就叫正态分布(Normal Distribution)了,后续会介绍。
此时,我们还可以把定理写成以下的积分结果,其实就是标准正态分布的积分:

P(aξnnpnpqb)12πabex22dxP\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) \to \frac{1}{\sqrt{2\pi}} \int_{a}^{b} e^{-\frac{x^2}{2}} dx

这个证明有前一个定理的基础就比较容易了。我们记

xn,j=jnpnpq,xn,jxn,j1=1npq.x_{n,j}=\frac{j-np}{\sqrt{npq}}, x_{n,j}-x{n,j-1} = \frac{1}{\sqrt{npq}}.

所以有:

P(aξnnpnpqb)=xn,j[a,b]Pn(xn,j)=xn,j[a,b]12πnpqexn,j22=12πxn,j[a,b]exn,j22(xn,jxn,j1)P\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) = \sum\limits_{x_{n,j}\in [a,b]} P_n(x_{n,j}) \\ = \sum\limits_{x_{n,j}\in [a,b]} \frac{1}{\sqrt{2\pi npq}}e^{-\frac{x_{n,j}^2}{2}} \\ = \frac{1}{\sqrt{2\pi }} \sum\limits_{x_{n,j}\in [a,b]} e^{-\frac{x_{n,j}^2}{2}} (x_{n,j}-x_{n,j-1})

我们惊奇的发现这就是个黎曼积分的形式!于是就得到了

P(aξnnpnpqb)12πabex22dxP\left(a\le \frac{\xi_n -np}{\sqrt{npq}} \le b\right) \to \frac{1}{\sqrt{2\pi}} \int_{a}^{b} e^{-\frac{x^2}{2}} dx

至此,棣莫弗-拉普拉斯定理的积分形式就得证了,我们似乎终于讲完了二项分布。

2.1.2.4:泊松分布

分布列:

P(ξ=k)=λkk!eλ   ,k=0,1,2,...,P(\xi = k) = \frac{\lambda^k}{k!}e^{-\lambda}\ \ \ , k=0,1,2,...,

泊松分布的用处一般用在拟合其他分布,下面介绍一下能拟合的场景:
如果有 nn 个事件 A1,A2,...,AnA_1,A_2,...,A_n,他们的相依程度很小、或者独立,那么这些事件发生的次数近似服从泊松分布 P(λ),λ=i=1npiP(\lambda), \lambda = \sum\limits_{i=1}^{n}p_i
例子:生日悖论中一共 (n2)\binom{n}{2} 个事件,所以用 λ=(n2)365\lambda = \frac{\binom{n}{2}}{365} 的泊松分布来拟合,可以导出同样的结果。

2.1.2.5:几何分布

分布列:

P(ξ=k)=pqk1,p+q=1,p,q>0P(\xi = k)=pq^{k-1}, p+q=1, p,q>0

她的意义就是:在伯努利试验中,第一次试验成功的累计试验次数。
几何分布的性质:

  1. 几何分布具有无记忆性
    证明:

P(ξ>m+kξ>m)=P(ξ>m+k)P(ξ>m)=P(ξ>k).P(\xi > m+k|\xi > m) = \frac{P(\xi > m+k)}{P(\xi > m)} = P(\xi > k).

  1. 取正整数值并且具有无记忆性的随机变量服从几何分布
    证明:如果有

P(ξ>m+kξ>m)=P(ξ>m+k)P(ξ>m)=P(ξ>k)P(\xi > m+k|\xi > m) = \frac{P(\xi > m+k)}{P(\xi > m)} = P(\xi > k)

那么令 k=1k=1 得到:

P(ξ=n+1)P(ξ=n)=t,t=1P(ξ=0)\frac{P(\xi = n+1)}{P(\xi = n)} = t, t=1-P(\xi = 0)

这个东西是等比的,做个差分就可以导出几何分布的形式了。

2.1.2.6:帕斯卡分布(负二项分布)

分布列:

P(ξ=k)=(k1r1)prqkr,p+q=1P(\xi = k) = \binom{k-1}{r-1}p^rq^{k-r}, p+q=1

代表:伯努利概型中,直到第r次成功的试验次数。然后用组合意义就可以写出这个式子了。
可以看出几何分布是帕斯卡分布的一个特殊情况。

2.1.2.7:超几何分布

分布列:

P(ξ=k)=(MK)(NMNk)(Nn)k=0,1,...,min{n,M}P(\xi =k) = \frac{\binom{M}{K}\binom{N-M}{N-k}}{\binom{N}{n}} \\ k=0,1,...,\min\{n,M\}

也就是 NN 个产品有 MM 个次品,抽样 nn 件,次品个数的分布列。
因为概率之和加起来是 11 ,因此我们得到了一个奇妙的组合恒等式(也称之为范德蒙德卷积):

(M0)(NMn)+(M1)(NMn1)++(Mn)(NM0)+=(NN)\binom{M}{0}\binom{N-M}{n}+\binom{M}{1}\binom{N-M}{n-1}+\cdots+\binom{M}{n}\binom{N-M}{0}+=\binom{N}{N}

显然,超几何分布在 nn 趋向于无穷的时候趋向于二项分布。

2.2:分布函数与连续型随机变量

2.2.1:分布函数

定义:记

F(x)=P(ξx),x(,)F(x)=P(\xi \le x), x\in(-\infty,\infty)

ξ(ω)\xi(\omega) 的分布函数。
因此,如果有了分布函数,那么对于任意一个博雷尔集,她的概率都可以计算了,那么显然有以下式子:

P(a<ξb)=F(b)F(a)P(ξ<a)=F(a0)P(ξ=a)=F(a)F(a0)P(ξ>a)=F(a)F(a0)P(a<\xi \le b)=F(b)-F(a)\\ P(\xi < a)=F(a-0)\\ P(\xi = a)=F(a)-F(a-0)\\ P(\xi > a) = F(a)-F(a-0)

接下来,我们就要开始研究分布函数的性质了。分布函数具有以下性质:

  1. 单调不减性:a<bF(a)F(b)a<b \to F(a)\le F(b) ,证明很显然,用概率的非负性;
  2. limxF(x)=0,limxF(x)=1\lim _{x\to -\infty}F(x) = 0, \lim_{x\to \infty}F(x) = 1
    证明:lim=limnF(n)=P(n=1{ξn})=P()=0\lim_{-\infty} = \lim_{n\to -\infty}F(n) = P(\cap_{n=1}^{\infty}\{\xi \le -n\}) = P(\emptyset) = 0,另一个等式证明方法一样。
  3. F(x+0)=F(x)F(x+0)=F(x)
    证明:只需证 limnF(x+1n)=F(x)\lim_{n\to \infty}F(x+\frac{1}{n})=F(x). 显然有 LHS=limnP(ξx+1n)=P(ξx)=F(x)LHS = \lim_{n\to \infty}P(\xi \le x+\frac{1}{n}) = P(\xi \le x) = F(x) .

并且符合这三个条件的函数必然是某个随机变量的分布函数。
离散型随机变量的分布函数是一堆横线组成的,我们主要需要考虑连续型随机变量的分布函数。

2.2.1:连续型随机变量的分布函数

定义:ξ\xi 可以取某个区间内的一切值,存在一个可积函数 p(x)p(x),使得 F(x)F(x) 满足:

F(x)=xp(y)dyF(x)=\int_{-\infty}^{x}p(y)dy

那么称 ξ\xi 为连续型随机变量,p(x)p(x)ξ\xi 的密度函数。
密度函数的性质:

  1. 非负性:p(x)0p(x)\ge 0
  2. 规范性:p(x)dx=1\int_{-\infty}^{\infty}p(x)dx=1

2.2.3:常见的连续型随机变量

2.2.3.1:均匀分布

a<ba<bξ\xi 服从 [a,b][a,b] 上的均匀分布当且仅当密度函数为:

p(x)=1ba[axb]p(x) = \frac{1}{b-a} [a\le x\le b]

这个比较简单,也没什么性质,就一笔带过了。

2.2.3.2:正态分布

密度函数:

p(x)=12πσe(xa)22σ2p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-a)^2}{2\sigma^2}}

那么 $\xi $ 服从正态分布。记作 ξN(a,σ2)\xi \sim N(a,\sigma^2)
这个 p(x)p(x) 这么抽象,为什么是分布函数呢,我们给出如下的证明:

(12πσe(ta)22σ2dt)2=(12πet22dt)2=12πet2+s22dtds\left(\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}e^{-\frac{(t-a)^2}{2\sigma^2}}dt \right)^2 = \left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\frac{t^2}{2}}dt \right)^2 \\ = \frac{1}{2\pi} \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} e^{-\frac{t^2+s^2}{2}}dtds

第一步是通过换元得出来的。然后我们将她写成极坐标积分的形式:

=12π02πdθ0rer22dr=0rer22dr=1=\frac{1}{2\pi}\int_{0}^{2\pi}d\theta \int_{0}^{\infty}re^{-\frac{r^2}{2}}dr = \int_{0}^{\infty}re^{-\frac{r^2}{2}}dr = 1

于是得证了。
我们在 a=0,σ=1a=0,\sigma=1 的时候称之为标准正态分布,她的密度函数关于 y 轴对称。此时记:

ϕ(x)=12πex22,Φ(x)=xϕ(t)dt\phi (x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}, \Phi (x) = \int_{-\infty}^{x}\phi(t) dt

对于一个随机变量 ξN(a,σ2)\xi \sim N(a,\sigma^2),我们称将她标准化

η=ξaσ,ηN(0,1)\eta = \frac{\xi - a}{\sigma}, \eta \sim N(0,1)

2.2.3.3:指数分布

密度函数:

p(x)={λeλx,x0,0,x<0.p(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0,\\ 0, & x < 0. \end{cases}

通过积分很容易得出分布函数:

F(x)={1eλx,x0,0,x<0.F(x) = \begin{cases} 1-e^{-\lambda x}, & x \ge 0,\\ 0, & x < 0. \end{cases}

指数分布也具有一些性质:

  1. 无记忆性P(ξ>s+tξ>s)=P(ξ>t)P(\xi >s+t|\xi >s)=P(\xi > t),证明比较容易,用分布函数证明就可以了
  2. 危险率函数是常函数
    首先我们要引入危险率函数这个概念,他可以表示“现阶段死亡的概率相对大小”:

λ(t)=p(t)1F(t)\lambda(t) = \frac{p(t)}{1-F(t)}

为什么这么定义呢?我们考虑先用自然语言来定义她:就是在某一刻趋于死亡的速率。

P(X(t+δt)x>t)=P(X(t,t+δt))P(X>t)=p(t)1F(t)δt+o(δt)=p(t)1F(t)dtP(X \in (t+\delta t)|x>t) = \frac{P(X\in (t,t+\delta t))}{P(X>t)} \\ =\frac{p(t)}{1-F(t)}\delta t+o(\delta t)\\ =\frac{p(t)}{1-F(t)}dt

因此危险率函数就定义成这个样子。
那么定义:

G(t)=1F(t)λ(t)=G(t)G(t)G(t)=1-F(t)\\ -\lambda(t)=\frac{G'(t)}{G(t)}

求一下积分:

0tλ(t)=ln(G(t))-\int_{0}^{t}\lambda(t) = \ln(G(t))

所以 G(t)=e0tλ(t)G(t) = -e^{\int_{0}^{t}\lambda(t)},于是我们就得到了:

F(t)=1e0tλ(t)F(t)=1-e^{-\int_{0}^{t}\lambda(t)}

然后就可以很快得出指数分布的危险率函数是常数了。

2.2.3.4:Γ\Gamma 分布

密度函数:

p(x)={λrΓ(r)xr1eλx,x0,0,x<0.p(x) = \begin{cases} \frac{\lambda^r}{\Gamma(r)}x^{r-1}e^{-\lambda x}, & x \ge 0,\\ 0, & x < 0. \end{cases}

Γ\Gamma 是欧拉积分。

Γ(α)=0xα1exdx\Gamma(\alpha) = \int_{0}^{\infty }x^{\alpha-1}e^{-x}dx

2.2.3.5:韦布尔分布

密度函数:

p(x)={ασ(xμσ)α1e(xμσ)α,x>μ,0,xμ.p(x) = \begin{cases} \frac{\alpha}{\sigma}\left(\frac{x-\mu}{\sigma}\right)^{\alpha-1}e^{-\left(\frac{x-\mu}{\sigma}\right)^\alpha}, &x > \mu, \\ 0, x\le \mu. \end{cases}

2.2.3.6:帕雷托分布

密度函数:

p(x)={(α1)x0α1xα,x>x0,0,xx0.p(x) = \begin{cases} (\alpha - 1)x_0^{\alpha - 1}x^{-\alpha}, & x >x_0,\\ 0, & x \le x_0. \end{cases}

2.2.3.7:β\beta 分布

密度函数:

p(x)={1B(a,b)xa1(1x)b1,0x1,0,otherwise.p(x) = \begin{cases} \frac{1}{B(a,b)} x^{a-1}(1-x)^{b-1}, 0\le x\le 1,\\ 0, & otherwise. \end{cases}

其中 BB 是 beta 函数:

B(a,b)=Γ(a+b)Γ(a)Γ(b)=01xa1(1x)b1dxB(a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} = \int_{0}^{1}x^{a-1}(1-x)^{b-1}dx

2.2.3.8:柯西分布

密度函数:

p(x)=1π11+(xθ)2p(x)=\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}

或者更普适的:

p(x)=1πσ11+(xθσ)2p(x)=\frac{1}{\pi \sigma} \frac{1}{1+\left(\frac{x-\theta}{\sigma}\right)^2}

2.3:随机向量

定义:ξ1(ω),...,ξn(ω)\xi_1(\omega),...,\xi_n(\omega) 定义在同一个概率空间上,则称

ξ(ω)=(ξ1(ω),...,ξn(ω))\xi(\omega) = (\xi_1(\omega),...,\xi_n(\omega))

为 n 维随机向量。

2.3.2:分布函数

我们主要讨论二元随机向量的分布函数。二元随机向量的分布函数具有以下性质:

  1. 对于每个变量单调不减
  2. 对于每个变量右连续
  3. F(x,)=0F(x,-\infty) = 0, F(,y)=0F(-\infty,y) = 0, F(,)=1F(\infty, \infty) = 1
  4. 对于任意实数 a1<b1,a2<b2a_1<b_1, a_2<b_2,有 F(b1,b2)F(a1,b2)F(b1,a2)+F(a1,a2)0F(b_1,b_2)-F(a_1,b_2)-F(b_1,a_2)+F(a_1,a_2)\ge 0
    第四个性质其实是概率的非负性,对应 P(ξ(a1,b1],η(a2,b2])P(\xi \in (a_1,b_1], \eta \in (a_2,b_2]) ,其实就是容斥原理(多还少补原理),可以推广到 n 维的情况。

我们定义边际分布函数

Fξ(x)=F(x,)F(η)(y)=F(,y)F_{\xi}(x)= F(x,\infty) \\ F_(\eta)(y) = F(\infty,y)

2.3.3:连续型随机向量

定义:若存在 nn 元非负可积函数 p(x1,x2,...,xn)p(x_1,x_2,...,x_n) 使得 ξ1,...ξn\xi_1,...\xi_n 的联合分布函数可以表示为:

F(x1,x2,...,xn)=x1xnp(y1,...,yn)dy1...dynF(x_1,x_2,...,x_n)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_n}p(y_1,...,y_n)dy_1...dy_n

那么称之为连续型随机变量,p 称之为分布函数。