⼈⼯智能必备数学基础:概率论与数理统计(1)
如果需要⼩编其他数学基础博客,请移步⼩编的GitHub地址
  传送门:
  这⾥我打算再补充⼀下关于概率论与数理统计的基础。
  (注意:⽬前⾃⼰补充到的所有知识点,均按照⾃⼰⽹课视频中⽼师课程知识点⾛的,同时⼀些公式是⽹友⾟⾟苦苦敲的,这⾥⽤到那个博客均在⽂末补充地址,不过这⾥⾸先表⽰感谢!!)
1,基本概念
1.1  随机试验的概念
  在⾃然界的现象中,分为必然现象和随机现象。随机现象在相同的条件下,⼤量重复试验中呈现出的规律性称为统计规律性。
  随机试验:对随机现象所作的观察,测量等试验统称为随机试验,简称试验,⽤E表⽰。
  随机试验有如下特点:
1,可以在相同条件下重复进⾏
2,所有可能结果不⽌⼀个,且事先已知
3,每次试验总是出现可能结果之⼀,但出现哪⼀个,试验前还不能确定
1.2  样本点,样本空间,随机事件的概念
  基本事件(⼜称样本点):指随机试验的每⼀个可能结果,⽤ e 表⽰。
  样本空间:基本事件或样本点的全体构成的集合,⽤ S 表⽰。
  样本点与样本空间的关系:
  这⾥需要注意的是,条件概率的样本空间:
  随机事件:样本空间 S 的某个⼦集A,称为随机事件,简称事件 A。当且仅当 A 中某个样本点出现,称为 A 发⽣。事件 A 可以⽤语⾔表⽰,也可以⽤集合表⽰。
  必然事件:样本空间 S 包含所有的基本事件,故在每次试验中都发⽣,因此称为必然事件。
  不可能事件:Ø 不包含任何基本事件,故在每次试验中不发⽣因此称为不可能事件。
  下⾯举个例⼦
1.3  概率与频率
  概率论中,频率和概率的概念是很重要的,两者既有联系也有本质的不同,有必要专门区分⼀下。
  对于⼀个不确定事件发⽣的可能性⼤⼩,我们希望到⼀个合适的数来表征它。⽽为了引出这个表⽰不确定事件可能性⼤⼩的数,我们引⼊频率来给概念。简单来说就是引⼊频率来引出概率。
  频率:描述的是事件发⽣的频繁程度。严格的定义是:在相同的条件下,进⾏ n 次试验,事件 A 发⽣的次数Na 称为事件 A 的频数,⽐值 Na/n 称为事件 A 发⽣的频率。显然知道频率是属于 [0, 1]的。
  概率:设 E 是随机试验(⼀定是要随机的),S是样本空间(就是可能出现的每种情况),对于 E 的每个事件 A 赋予⼀个实数,记做P(A),称为事件 A 的概率,如果集合函数P(*) 满⾜以下条件:
1,⾮负性:P(A)  ≥ 0
2,规范性:对必然事件S,有 P(S) = 1
3,可列可加性:对于两两互不相容事件,或事件的概率 =  各单独事件的概率之和
  实际上,在还没有概率这个概念的时候,⼤量的重复试验表明,随着重复次数 n 的逐渐增⼤,某事件 A的频率会呈现出稳定性,逐渐趋于某个常数,这种“频率稳定性”是通常所说的统计规律性。⽽这个常数就是可以描述事件可能性⼤⼩的概率,就是概率定义中的赋予的实数。后来出现的概率的概念,是因为在实际中,我们不可能对每⼀个事件都要做⼤量的实验,然后通过频率稳定性来求概率。
  总结⼀下:概率表⽰某事件出现的可能性⼤⼩,最初通过频率稳定性来引出与求得。
  举个例⼦:⽐如上⾯提到的抛硬币事件,当抛硬币次数分别为5, 50, 500次,我们分别做10组实验,我们很明显的发现,当次数越多时,频率趋于稳定,为0.5左右。
1.4  为什么要使⽤概率呢?
  概率论是⽤于表⽰不确定性陈述的数学框架,即它是对事物不确定性的度量。
  在⼈⼯智能领域,我们主要以两种⽅式来使⽤概率论。⾸先,概率法则告诉我们AI系统应该如何推理,所以我们设计⼀些算法来计算或者近似由概率论导出的表达式。其次,我们可以⽤概率和统计从理论上分析我们提出的 AI 系统的⾏为。
  计算机科学的许多分⽀处理的对象都是完全确定的实体,但机器学习却⼤量使⽤概率论。实际上如果你理解机器学习的⼯作原理你就会觉得这个很正常。因为机器学习⼤部分时候处理的都是不确定量或随
机量。
  在概率论中概率依其计算⽅式不同,可分为古典概率,试验概率和主观概率,下⾯学习⼀下。
2,古典概率与⼏何概率
  古典概率通常⼜称事前概率,是指当随机事件中可能发⽣的结果及其出现的次数都可以由演绎或外推法得知,⽽⽆需经过任何统计试验即可计算各⾃可能发⽣结果的概念。
2.1  古典概率
  关于古典概率是以这样的假设为基础的,即随机现象所能发⽣的事件是有限的,互不相容的,⽽且每个基本事件发⽣的可能性相等。我们称此试验为古典概率试验。
  在古典概率下,事件 A 的概率定义为:
  ⼀般来说,如果在全部可能出现的基本事件范围内构成事件 A 的基本事件有 a 个,不构成事件 A 的事件有 b 个,则出现 A 的概率为:P(A) =a/(a+b)。
  举个例⼦:⼀袋中有 8个球,编号为1~8,其中 1~3 号为红球,4~8 号为黄球,设摸到每⼀球的可能性相等,从中随机摸⼀球,记A = {摸到红球},求 P(A)。
2.2  ⼏何概率
  ⼏何概率是可以⽤⼏何⽅法求得的概率,向某⼀可度量的区域内投⼀质点,如果所投的点落在门中任意区域 g 内的可能性⼤⼩与 g 的度量成正⽐,⽽与 g 的位置和形状⽆关,则称这个随机试验为⼏何型随机试验或⼏何概率,此处的度量就是测量,⼀维指长度,⼆维指⾯积,三维指体积等。
  样本点在空间区域中均匀分布的概率模型。此处试验的可能结果是欧⼏⾥得空间中的点,所有样本点的集合Ω是此空间中的⼀个⼏何图形,对于Ω的任何可测⼦集A,称:
  P(A) 为事件 A的⼏何概率。
  ⼏何概型是⼀种概率模型,在这个模型下,随机试验所有可能的结果是⽆限的,并且每个基本结果发⽣的概率是相同的。例如⼀个⼈从家到单位的时间可能是8:00~9:00 之间的任意⼀个时刻;往⼀个⽅格中投⼀个⽯⼦,⽯⼦落在⽅格中任意⼀点,这些试验出现的结果都是⽆限多个,属于⼏何概型。⼀个实验是否为⼏何概型在与这个试验是否具有⼏何概型的两个特征——⽆限性和等可能性,只有同时具备这两个特点的概型才是⼏何概型。
  ⾯积⽰例:思考下⾯这种问题⽅式,不⽤从⼏何导代数,要依靠⼏何,从代数到⼏何。⽐如我们先定义了 x 和 y 点,都被特征化到了
0~60,很显然⼏何上就是⼀个正⽅形,然后互相只等 15 min,那就差的绝对值⼩于等于 15 就⾏了,然后根据这个画图即可。
  ⾓度⽰例:这个问题想出 x 和⾓度的取值范围都很简单,然后可以把他们转化为⼏何和代数,可以把 x 看做值域,⾓度看做定义域,这个图上就画出了⼀篇空间。然后建⽴⼀个满⾜要求的⽅程:⽅程的思想是针的中⼼点和边的距离 0 到某个⽅程,这样 x 的⽅程式就出来了。然后画在图上,积分求⾯积即可。
3,条件概率
3.1  条件概率的定义
  很多情况下,我们感兴趣的是某个事件在给定其他事件发⽣时出现的概率,这种概率叫条件概率,表⽰为 P(A|B),读作:在B的条件下A的概率。条件概率可⽤决策树进⾏计算,条件概率的谬论是假设P(A|B) ⼤致等于P(B|A)。
  我们将给定 X=x 时 Y=y 发⽣的概率记为 P(Y=y | X=x) ,这个概率可以通过下⾯的公式来计算:
3.2  条件概率例题
  例题1:
  条件概率P(B|A) 的求解思路为:
  因为已经知道事件A必须发⽣,所以只需要在 A发⽣的范围内考虑问题,即现在的样本空间为A,因为在事件A发⽣的情况下事件B发⽣,等价于事件A和事件B同时发⽣,即AB发⽣。
  例题2:
  例题3:
3.3  条件概率基本定理
  独⽴性:设A,B为量随机事件,当且仅当两个随机事件 A 和 B 满⾜ P(A∩B) = P(A)P(B) 的时候,他们才是统计独⽴的,这样联合概率可以表⽰为各⾃概率的简单乘积。
  同样,若 P(B|A) = P(B),即 P(AB)=P(A)*P(B),即 P(A|B) = P(A),则称A, B 相互独⽴;
  以及,若 P(A|B) = P(A),即 P(AB)=P(A)*P(B),即 P(B|A) = P(B),则称A, B 相互独⽴;
  换句话说,如果A和B是相互独⽴的,那么A在B这个前提下的条件概率就是A⾃⾝的概率,同样,B在A的前提下的条件概率就是B⾃⾝的概率。
  互斥性:当且仅当 A 与 B 满⾜ P(A∩B) = 0 且 P(A)≠0,P(B)≠0 的时候,A与B是互斥的。因此,P(A|B)=0, P(B|A)=0,换句话说,如果B已经发⽣,由于A不能和B在同⼀场合下发⽣,那么A发⽣的概率为零;同样,如果A已经发⽣,那么B发⽣的概率为0。
  举个例⼦:
4,⼀维随机变量
  随机变量(random  variable)表⽰随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能⽤数量化的⽅式表达。随机变量可以是离散的或者连续的,按照随机变量可能渠道的值,可以把他们分为两种基本类型:离散型随机变量和连续型随机变量,下⾯⼀⼀学习。
4.1  ⼀维离散型随机变量
  离散型(discrete)随机变量即在⼀定区间内取值为有限个或可数个。例如某地区某年⼈⼝的出⽣数,死亡数,某药物某病病⼈的有效数,⽆效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量,⼆项随机变量,⼏何随机变量和泊松随机变量。
  定义:设X为离散型随机变量,它的⼀切取值可能为X1, X2,...Xn,记为:
  称上式为X的概率函数,⼜称为X的概率分布,它本⾝是⼀个概率值,X是随机变量的取值。
  ⽐如我们来掷骰⼦,到离散型随机变量 X的所有可能取值,则得到离散型随机变量取值的概率:
  f(xi) = P(X=xi) 为离散型随机变量的概率函数。
  对于离散型随机变量的概率分布有以下两个基本性质:
  举个例⼦,假设我们有⼀批房⼦,那中介⼀天卖出的房源数量肯定是有限的:
  就是说卖多少套房的概率均在我们的规划中,卖房⼦肯定是有限多个可能的,这样就可以画出售楼的概率分布。
4.2  ⼀维连续型随机变量
  连续型(continuous)随机变量即在⼀定区间内变量取值有⽆限个,或数值⽆法⼀⼀列举出来。例如某地区男性健康成⼈的⾝⾼值,体重值等。有⼏个重要的连续随机变量常常出现在概率论中,如:均匀随机变量,指数随机变量,伽马随机变量和正态随机变量。
  密度:⼀个物体,我们如果问其中⼀个点的质量是多少?这该怎么求呢?由于这个点实在太⼩了,那么质量就为0了。但是其中的⼀⼤块是由很多个点组成的,这时我们就可以根据密度来求其质量了。
  概率密度:对于连续型随机变量X,我们不能给出其取每⼀个值的概率也就是画不出来那个分布表,这⾥我们选择使⽤密度来表⽰其概率分布!
  下⾯举个例⼦,假设我们有⼀组零件,由于各种因素的影响,其长度是各不相等的,如下:
  所以我们考虑通过某个区域来求其概率分布,⾸先我们绘制其频率分布直⽅图,如下所⽰:
  结合两个图来看,我们发现通过绘制频率分布直⽅图可以解决问题,虽然看起来有点粗糙,但当我们把样本数据增加,分组数也同时在增加,这样的轮廓是不是越来越细致,接近⼀条曲线,⽽这条曲线就是我们想要的。
  连续型随机变量的定义:对于随机变量 X 的分布函数为 F(x),若存在⼀个⾮负的可积函数 f(x),使得对任意实数x有:
  则称 X 为连续型随机变量,称  f(x) 为 X 的概率密度函数(Probability Density Function),简称概率密度或密度。
  由其定义可知,连续型随机变量 X 的分布函数 F(x) 在 x 点的函数值等于其概率密度函数 f(x) 在区间(-∞,  x] 上的积分。
  概率密度函数⽤数学公式表⽰就是⼀个积分,也可以把概率形象的说成⾯积!
4.3  简单随机抽样
  简单随机抽样也称为单纯随机抽样,纯随机抽样,SRS抽样,是指从总体N个单元中任意抽取 n 个单位作为样本,使每隔可能的样本被抽中的概率相等的⼀种抽样⽅法。
  定义:⼀般的,设⼀个总体含有 N 个个体,如果通过逐个抽取的⽅法从中抽取⼀个样本,且每次抽取时各个个体被抽到的概率相等,则这样的抽样⽅法叫做简单随机抽样。
  简单随机抽样的特点:
1,简单随机抽样要求被抽取的样本的总数个数N是有限的
2,简单随机抽样样本数 n ⼩于等于样本总体的个数N
3,简单随机抽样是从总体中逐个抽取的
4,简单随机抽样是⼀种不可放回的抽取
5,系统抽样抽样的每个个体⼊样的可能性均为 n/N
  简单说就是:每个样本单位被抽中的概率相等,样本的每个单位完全独⽴,彼此间⽆⼀定的关联性和
排斥性。
  简单随机抽样是最基本的抽样⽅法,分为重复抽样和不重复抽样。在重复抽样中,每次抽中的单位仍然放回总体,样本中的单位可能不⽌⼀次被抽中。不重复抽样中,抽中的单位不再放回总体,样本中的单位只能抽中⼀次。
  举个例⼦:
5,⼆维随机变量
5.1  ⼆维随机变量的定义
  以前我们只关⼼⼀个指标,现在要更操⼼了,例如根据学⽣的⾝⾼(X)和体重(Y)来观察学⽣的⾝体状况。这就不仅仅是X和Y各种的情况,还需要了解其互相的关系。
  ⼆维随机变量的定义:⼀般,设E是⼀个随机试验,它的样本空间 S={e},设 X=X(e) 和 Y=Y(e), S是定义在S上的随机变量,由他们构成⼀个向量(X, Y),叫做⼆维随机变量或⼆维随机向量。
  ⼆维随机变量的联合函数:若(X,  Y)是随机变量,对于任意的实数x, y,有:
  F(x, y) 表⽰随机点(X , Y) 在以(x, y)为顶点且位于该点左下⽅⽆穷矩阵内的概率。
  ⽤联合分布函F(x, y) 表⽰矩阵域概率:
  ⼆维随机变量的性质
5.2  ⼆维离散型随机变量n号房时间
  若⼆维随机变量(X, Y)全部可能取到的不同值是有限对或可列⽆限对,则称(X,  Y)是离散型随机变量。
  离散型随机变量的联合概率分布为:设(X, Y)所有可能取值为(xi,  yi), i=1,2,....,称:
  为⼆维离散型随机变量(X, Y)的联合概率分布。
  例1:设随机变量 X 在1, 2, 3, 4四个整数中等可能的取⼀个值,另⼀个随机变量 Y 在1~X 中等可能地取⼀整数值,试求(X,  Y)的联合概率分布。
  (X=i,  Y=j)的取值情况为:i=1,2,3,4;j 取不⼤于 i 的正整数
  (X, Y)的联合概率分布为:
  ⽤图展⽰为:
5.3  ⼆维连续型随机变量
  ⼆维随机变量(X, Y)的分布函数 F(x, y) 如果存在⾮负函数 f(x, y),则对于任意x,  y有:
  则称(X, Y)为连续型的⼆维随机变量,f(x, y) 为其概率密度。
  例1:设⼆维随机变量 (X,  Y) 具有概率密度:
  (1)求常数k
  (2)求分布函数 F(x, y)
  (3)求P(Y≤X)的概率
5.4  ⼆维离散随机变量的边缘分布函数
  对于离散型随机变量(X, Y),分布律为:
  X, Y 的边缘分布律为:
5.5  ⼆维连续随机变量边缘分布函数
  定义:⼆维随机变量(X,Y)作为整体,有分布函数F(x, y),其中X和Y都是随机变量,他们的分布函数记为:F X(x), F Y(y) 称为边缘分布函数。
  在分布函数F(x, y) 中,令 y → +∞,就能得到 F X(x),如下:
  同理可得:
  概边缘分布:由联合分布函数可以得到边缘分布函数
5.6  连续型的边缘概率密度函数
  对于连续型随机变量(X, Y),概率密度为 f(x, y),则X, Y的边缘概率密度为:
  事实上:
  同理:
  例1:
  例2:
6,期望与⽅差
6.1 ⼀维情况的期望
  在概率论和统计学中,数学期望是实验中每次可能结果的概率乘以其结果的综合。它是最基本的数学特征之⼀,反映随机变量平均值的⼤⼩。
  假设 X 是⼀个离散随机变量,其可能的取值有:{x1, x2, .....xn},各个取值对应的概率取值为:P(x k), k =1,,则其数学期望被定义