一、概论
基础引入:

原理一:【两边夹定理】

原理二:【极限】

X为角度x对应的圆弧的点长;
原理三【单调性】:

引入:


二、导数

常见函数的导数:

四、应用:

求解:

泰勒展式和麦克劳林展式:

泰勒展式在x0 = 0处展开得到麦克劳林展式
Taylor公式的应用1:

变种:

Taylor公式应用2:

方向导数:

梯度:

函数的凸凹性:

函数凸凹性判定:


凸函数性质的应用:
、

五、概率论

概率为0例子: 把一枚针投在一个平面上,则概率为0(一个点 之于 一个面)
古典概型:

思路:


古典概型变种问题:
生日悖论:


古典概型总结:

几何概型:


条件概率:

条件概率: 在已知B发送的条件下,A发生的概率

全概率:

全概率公式的意义在于: 当直接计算P(A)比较困难,而P(Bi),P(A|Bi) (i=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi),由加法公式得
P(A)=P(AB1)+P(AB2)+....+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
贝叶斯公式:
与全概率公式解决的问题相反,贝叶斯是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有

Bi 常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。
贝叶斯公式的应用:

、
两学派的认知:【频率学派 && 贝叶斯学派】

贝叶斯公式扩展:

两点分布:

二项分布:【伯努力分布】



泊松分布【Taylor展式结合】:



泊松分布的应用:

连续分布之均匀分布:

连续分布之指数分布:

指数分布的无记忆性:

连续分布之正态分布【高斯分布】:


总结:

指数族:
二项分布【伯努力分布】,正态分布【高斯分布】属于指数族
logistic函数【sigmod函数】:


Logistic函数的导数:

期望:

期望的性质:

note: P(xy) = P(x) P(y) --> x, y独立
方差:

协方差:

协方差、独立、不相关关系:

协方差的意义:

协方差的上界:


独立一定不相关,不相关不一定独立,不相关只是线性独立,可能是非线性不独立;
相关系数:

其中:Var(x): 标准差;
协方差矩阵:

原点矩 和 中心矩

期望为一阶原点矩, 方差为2阶中心矩
概念总结:

偏度:

偏度为0, 则是正态分布
偏度公式:

峰度:

应用:


引入切比雪夫不等式:

大数定理:


中心极限定理:

标准的中心极限定理的问题:


中心极限定理的意义:

样本的统计量:

样本的矩:

随机变量的矩 和 样本的矩, 有什么关系呢??

矩估计:【非常重要】

正态分布的矩估计:

均匀分布的矩估计:

贝叶斯公式带来的思考:

最大似然估计:

极大似然估计的具体实践:

极大似然估计的应用:

正态分布的极大似然估计:



总结:

极大似然估计与过拟合:

5、 10 为超参数;