zoukankan      html  css  js  c++  java
  • 机器学习笔记导论

    《Machine Learning - A Probabilistic Perspective》

    作者:Kevin Patrick Murphy

    第一章:导论

    1.1 什么是机器学习,为什么需要机器学习。

      大数据时代,要求机器能自动分析数据,能从已知的数据中学习一些隐藏的模式,来预测未来的数据,或者执行一些决策。

      机器学习大体分为两类:预测或者有监督学习:这个方式需要有训练数据库,然后给定输入特征、属性或者协变量,给定输出的信息。如果输出的是类别信息,则称这类问题叫分类问题,或者模式识别问题。如果输出的是连续值,则称这类问题为回归问题regression)

      描述(descriptive)或者无监督学习:这类问题只有输入信息,而没有关于输入的任何结构、模式等信息。给定输入,需要挖掘其内在的一些模式,因此有时候叫知识挖掘knowledge discovery)。

      还有第三类学习方法,叫增强学习reinforcement learning),这类方法是用较少,

    1.2 有监督学习:

      分类问题:给定带有标注的输入数据,训练学习一个预测函数。然后,利用这个预测函数多新的样本进行预测或者标注,这个过程也就推广generalization)。

      利用概率模型,我们可以将这类问题描述为概率形成:

     

     

      利用MAP estimate原则,即最大化后验概率来决策。

      预测问题:给定的输入,输出可能是连续值。比如预测年龄、预测温度等值。

    1.3 无监督学习

      无监督学习意在发掘数据的“有意思”的结构信息,在这类方法中,从概率的角度讲,我们要构建带参数的概率密度估计

      无监督学习主要有以下几类:聚类算法、降维算法(高维数据显示)、图的结构挖掘、矩阵填充(matrix completion)。

      有监督学习通常的概率描述:

     

      无监督学习通常的概率描述:

    1.4 机器学习中的重要概念

      1,有参数模型和无参数模型;2,维度灾难;3,线性回归;Logistic回归;4,过拟合;5,模型选择;6,没有免费的午餐原理。

      没有免费的午餐原理】:我们在一个数据域上所做的假设,不一定在其他的数据域也同样工作的很好;实际上往往在其他域内性能很差。这个原理产生的结果是,我们开发出很多不同的模型,来覆盖现实世界中的不同的数据。

    【本文完】

  • 相关阅读:
    Search Insert Position(二分查找)
    c++基础题
    Divide Two Integers(模拟计算机除法)
    Swap Nodes in Pairs(链表操作)
    Letter Combinations of a Phone Number(带for循环的DFS,组合问题,递归总结)
    进程和程序的区别
    Add Two Numbers(链表)
    Longest Substring Without Repeating Characters
    02.友盟项目--原始日志数据生成
    01.友盟项目--nginx服务器配置
  • 原文地址:https://www.cnblogs.com/hSheng/p/2811364.html
Copyright © 2011-2022 走看看