基础概念:
1,概率质量函数
概率质量函数(probability mass function)PMF:离散随机变量在各特定取值上的概率。
2,累积分布函数
累积分布函数(Cumulative Distribution Function, CDF)计算给定 x 的 CDF(x),就是计算样本中小于等于 x 的值的比例。
3,偏度
衡量分布的不对称型
4,概率密度函数
概率密度函数(probability density function,PDF):累积分布函数的导数。
5,中心极限定理
假设随机变量 X 的均值和标准差为 μ 和 σ, 那么 n 个随机变量 X 的和渐进地服从
5,为什么正态分布具有普适性
绝大多数动物( 或者其他生命形式) 的特征, 如体重, 都会受到大量遗传和环境因素的影响, 而且这些影响是具有可加性的。 我们观测到的这些特征是大量微效因素的加和, 所以它们都近似地服从正态分布。
6,分布函数的计算框架
理解:无论是离散还是连续变量我们都可以画出概率分布函数CDF,大致观察分布,对于离散变量如果相同值较多可以采用概率质量函数观察其分布,对于二分类可以画出他们的二者之间的差。来观察二者在哪个区间最有区分性。
7 假设检验
8 相关性检验
皮尔逊相关系数:
9 互信息
互信息和信息增益的计算方法相同