2019年03月15日
这两天MBBS监考,为了克服无聊,在监考期间开始了踱步漫想,整理脑中的碎片知识,再次深刻理解了孔夫子的那句话:学而不思则罔,思而不学则殆。
大学硕士博士期间都学过统计,但总感觉统计十分陌生,自认为根本就不理解统计的精髓,一旦到了应用时,心理就犯怯。理解不深主要是学和思都不够。
这里还是要吐槽大学里的教育,大部分都叫做填鸭,算不上是教育,教育的要义是启发。
要是我是讲师,我绝不会把课本直接搬上PPT,教材是知识的提炼精简和浓缩,初学者根本得不到任何启发和激励,强行填鸭只会让学生彻底失去兴趣。我讲课的话,一定首先用常识俗话来把学生带入学科的殿堂,这门学科是为什么而产生的,是如何一步一步在问题中发展的,出现了哪些经典的解决问题的办法,哪些nb的人做了哪些nb的贡献(这会耗费讲者大量的时间和精力,这也就是为什么好的教育是昂贵的稀缺资源)。在学生兴趣来了,听过瘾了后,再以课本上的术语规范学生的思想,只有这样课本上的那些精华术语才有了血肉,受到启发的学生才会自主的去开拓,坚持学习,这才叫站在巨人的肩膀上了。
教材上的任何一个概念都不是多余的,它们都是在某个背景下为了解决某个问题而提出的。正确的逻辑是:基本的世界观 - 发现了问题 - 解决问题 - 改进方法 - 新思路革新世界观,如此循环。
以下的漫想肯定不严谨,但却是我的真实的头脑风暴,权当娱乐,如对其他人有些许启发那就更好了。
基本的世界观:
我是个执着的人,什么都喜欢往“底层”思考,世界的本源是什么?霍金在研究,奇点,大爆炸,再坍缩到奇点,刘慈欣也在思考,大家都在思考,但似乎还没有什么明确的答案。
茫茫宇宙出现了生命和人类(智能),智能足够了,才能推进文明持续发展,但显然人类不像造物主那么万能,我们的智能是受限的智能。
(统计,变量,常量,分布,假设检验,机器学习。。。)
统计离不开分布,分布是用于描述变量的,什么是变量,什么是常量?(这不是废话吗,这不是常识吗?奈何我不满足,非要往底层问)
我是这么理解的,变量和常量在宇宙中本不存在,是人类创造出来的。世界上没有两片相同的叶子,更极端的世界上不存在两个相同的原子,因为电子状态不同。但人类的基本思维是归类(启发:抽象继承封装多态,面向对象编程的基本思路)。
人类习惯把身边的具有相似属性的东西归类,地球、太阳、火星是完全不同的东西,八竿子打不着,但在人类地思维里被抽象为了星球,它们就都有了属性:半径。
所以,变量就是我们抽象出的类的属性,类是模板,类地实例就是一个个对象,所以变量在每一个对象中有一个不同的值,它一直在变所以叫变量。常量就是固定不变的变量,就是一个特例而已,比如地球的G值,因为经常用所以就需要记录下常量。(再强调一遍,造物主不需要变量,因为全知全能)
有变量就来谈分布,举例:地球上的人的身高这个变量就符合正态分布,类是人,对象是地球上的所有人,变量是身高。分布可以是直方分布图(计数),可以是概率密度函数,还可以是CDF累计密度函数。
分布的本质是人类经验的总结,在已知数据中发现的规律。正态分布是最重要的一个。为什么正态分布在宇宙中如此普遍存在呢?这是个哲学问题,很多人讨论,我也就只想到了高尔顿的“向平均回归”。
变量有许多描述的特征,平均值和方差最常见,方差是描述类属性的变动的,标准化后就是标准差(还有个标准误,不要混淆)。
统计的底层思维是概率,概率分布和假设检验都是基于概率的。
统计的本质是什么?为什么我们要造出统计这个东西?我认为统计和机器学习都是为了人类进行预测和决策的。人类在观察中得到了数据,发现了规律,自然就像预测,来辅助自己的决策。
概率的本质是什么?概率就是量化人类所处的未来的不确定性的,我们都在时间的长河中,没有剧本,一个对象的行为具有不确定性(行为的结果就是事件),我们反感不确定性,所以用概率加以量化。
假设检验的起源
经常,我们会要比较两组数据有没有差异,以此做出决策。
如果我们是Fisher时代的人,还不知道假设检验,我们会怎么做?我们已经会计算mean和variance了,知道有分布这个东西。直觉地,我们会发现差异取决于一个“阈值”,这个阈值会像一把刀把有差异和没差异分开。我们可以把两组数据标准化成标准正态分布,然后比较两个正态曲线交叉的面积,设定95%的overlap为相同。 如果不符合正态这方法就歇菜了,而且这个方法太死板,太静态。
Fisher的设计就厉害了,做生物的就是不一样,明确知道重复的意义,所以引进了“小概率事件”,大量重复实验中发生概率小于5%(or 1%)的时间叫做小概率事件,我们可以认为,通常在这个阈值下认为小概率事件不会发生。
又引入了数学的证明体系,我们做一个假设(假设要包含足够的信息,证伪是需要用到),基于假设我们会推理出我们数据出现得概率,如果这个p-value小于0.05,数据是小概率事件,可以认为基本不会发生,所以假设就是假的。
丢硬币判断均匀与否的例子最直观,假设均匀,那就是p=0.5的二项分布,直接根据抛的次数来判断我们抛出来的是否是小概率事件。
另外最经典的z-test就出现了,假设样本服从正态分布(不服从就必须引入抽样分布),我们构建一个mean(X1-X2)的统计量(做了些许的推广),它也服从正态分布,在H0假设下,我们可以明确知道这个分布(均值和方差都已知),然后再计算真实的mean(X1-X2),看是不是在样本正态曲线的极端值。
CI置信区间也好理解,根据p-value我们结果是yes or no,如果我想知道样本值落在什么区间才算显著呢(可以重复利用)?于是统计量的区间就来了,正态分布的95%区间很好算。
聊假设检验就离不开抽样分布和中心极限定理。
要做上面的分析,基本假设前提是样本服从正态分布,而且样本量要足够大。那么小样本的,总体不是正态分布的怎么做呢?
抽样分布就是从总体中抽N个样本,看样本的统计量服从什么分布。样本的标准误se这个概念非常重要。
中心极限定理发现:多次抽样后,样本的均值这个统计量服从正态分布,不收抽样总体分布的影响,可以根据sample size算出这个具体的分布。
之后就是假设检验的拓展了,类别型的、单样本、双样本和多样本,核心原理理解了再去看具体方法就简单多了。每一个检验又有多个对应的统计分布检验,大致分为有参和无参两类。细节问题我会在另外一个帖子做专题总结。
待续~