zoukankan      html  css  js  c++  java
  • 西瓜书学习笔记(一)

    序言

    1、符号主义、贝叶斯派、联结主义、进化主义、行为类比主义(机器学习的五大流派):

    参考:本书1.5节及https://blog.csdn.net/rogerchen1983/article/details/79681463;

    第一章 绪论

    1、1997年,Tom Mitchell对机器学习的定义引入了三个概念:经验Experience(E)、任务Task(T)、任务完成效果的衡量指标Performance measure(P)。将机器学习定义为:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们说关于T和P,该程序对E进行了学习。即在有了经验E的帮助后,机器完成任务T的衡量指标P变得更好了。

    2、奥卡姆剃刀原理:“如无必要,勿增实体”,即“简单有效原理”。周志华西瓜书中描述为:“若有多个假设与观察一致,则选择最简单的那个”。

    3、没有免费的午餐定理:没有免费午餐定理(No Free Lunch,简称NFL),该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的。即脱离具体的问题,空泛地谈论“什么学习算法最好”毫无意义。

    第二章 模型评估与选择

    1、P问题、NP问题、NPC问题 NP hard问题

    在计算机领域,一般可以将问题分为可解问题和不可解问题。不可解问题也可以分为两类:一类如停机问题,的确无解;另一类虽然有解,但时间复杂度很高。可解问题也分为多项式问题(Polynomial Problem,P问题)和非确定性多项式问题(NondeterministicPolynomial Problem,NP问题)。

    2.、评估模型泛化误差的方法

      2.1、留出法

      2.2、交叉验证法(k次交叉验证、p次k折交叉验证、留一法)

        适用于数据量足够的情况;

        任何评估方法不一定比其他评估方法更准确,“没有免费的午餐”定理对实验评估方法同样适用。

      2.3、自助法

        适用于数据集较小、难以进行有效划分训练/测试集的情况。能从初始数据中产生多个不同的训练集,对集成学习有较大好处。但自助法产生的数据集改变了初始数据的分布,会引入估计偏差。

    3.、评估不同模型泛化性能(分隔出验证集进行调参,并在测试集上进行测试)

      将样本数据集分为测试集和训练数据,训练数据进一步分为训练集和验证集。使用验证集进行模型的选择和调参,使用测试集来估计模型在实际使用时的泛化能力。

      训练集、验证集、测试集:

    4、性能度量(评估模型的泛化性能)

      4.1、回归任务:将模型预测结果与真实值进行比较,计算“误差”,如:

              ①:欧式、曼哈顿、切比雪夫距离、闵可夫斯基距离,如:回归任务中常用均方误差;

              ②:余弦距离;

              ③:汉明距离;

              ④:马哈拉诺斯比斯距离;

              ⑤:相关系数;

      4.2、分类任务:  ①:错误率、精度;

              ②:二分类任务:混淆矩阵、查准率、查全率、P-R曲线(查准率-查全率曲线)图、面积度量标准(度量学习器的查准率、查全率性能)、平衡点(BEP)性能度量标准、F1度量标准、Fβ度量标准;

              ③:多分类任务:两两类别之间组建n个混淆矩阵、宏查准率、宏查全率、宏F1、微查准率、微查全率、微F1;

              ④:ROC曲线(真正例TPR率-假正例FPR率曲线)、AUC面积度量法;

              ⑤:代价敏感错误率、代价曲线;

    5、比较检验(以错误率为例,分析学习器的泛化性能是否良好?有多大的把握(显著度)?)

      5.1、概率论知识补充

      常用离散型分布:单点分布(退化分布)、(0-1)分布(两点分布或伯努利分布)、二项分布、负二项分布(帕斯卡分布)、几何分布、超几何分布、泊松分布;

      常用连续型分布: 均匀分布、正态分布(高斯分布)、对数正态分布、逆高斯分布、Γ分布( 伽玛分布 ) 、指数分布(负指数分布)、卡方分布、非中心卡方分布、韦布尔分布、

    拉普拉斯分布、瑞利分布、帕雷托分布、极值分布、逻辑斯蒂分布、β分布 、柯西分布、t 分布(学生氏分布)、非中心 t 分布、F分布、非中心 F分布;

      5.2、常用的分布

      参考:https://zhuanlan.zhihu.com/p/47609519

     

       5.3、常用的分布所解决的问题

      大数定理:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。

      0-1分布(两点分布或伯努利分布)、均匀分布:一次随机事件发生某一结果的概率;

      二项分布、超几何分布:n次伯努利试验(或有放回抽样试验)中事件A恰好发生k次的概率。超几何分布为不放回抽样时的概率;

      几何分布、负二项分布:前k-1次皆失败,第k次成功的概率。负二项分布为r次失败(成功)前成功(失败)的次数;

      泊松分布:特定时间里发生n个事件的机率。当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松分布近似计算。事实上,泊松分布正是由二项分布推导而来的;

      指数分布:要等到一个随机事件发生,需要经历多久时间。给定一个某段时间内发生次数遵循泊松分布的事件,那么事件间隔时间遵循参数λ相同的指数分布。

      正态分布:

        中心极限定理:①:独立同分布的中心极限定理:在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量;

               ②:棣莫佛-拉普拉斯定理:正态分布是二项分布的极限分布;

               ③:不同分布的中心极限定理:随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。

      t分布、卡方分布:t分布用于推断正态分布的均值。检验基于观测值和理论值的差(假定差遵循正态分布)的平方和;

      伽玛分布和贝塔分布:伽玛分布可以用来建模接下来第n个事件发生前的时间。Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用αα和ββ表示。在贝叶斯推断中,Beta分布是Bernoulli、二项分布、负二项分布和几何分布的共轭先验分布;

      5.4、常用区间估计与假设检验公式表

      参考:https://wenku.baidu.com/view/1ae0a2b8a56e58fafab069dc5022aaea998f41ef.html

     

     

     

     

     

     

     

     

     

      5.5、常用假设检验

      参考:https://www.cnblogs.com/hust-chen/p/8643973.html

      5.6、不同学习器,相同测试集,交叉验证t检验

      5.7、不同学习器,相同测试集,McNemar

      5.8、不同学习器,不同测试集,Friedman检验与Nemenyi后验

    6、偏差与方差

      偏差刻画了学习算法本身的拟合能力;(欠拟合);

      方差刻画了数据扰动所造成的影响;(过拟合);

      噪声刻画了学习问题本身的难易程度;

    附录 常用概率分布间的关系

      参考:http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

         http://www.math.wm.edu/~leemis/2008amstat.pdf

      

  • 相关阅读:
    QQ下面功能移动效果
    网页中选择功能
    自定义listview
    android的内存优化分析【转,超级推荐】
    animation的xml定义中的android:interpolator属性(转)
    HOME键与Notification配合使用的bug重现【原创】
    (转载)Android下Affinities和Task(开发者指南)
    职场加薪步步高升的五大法则(转)
    强引用,软引用和弱引用。
    更改字体的ttf。
  • 原文地址:https://www.cnblogs.com/AlexWangle-one/p/14421411.html
Copyright © 2011-2022 走看看