机器学习笔记导论

zoukankan html css js c++ java

机器学习笔记导论

《Machine Learning - A Probabilistic Perspective》

作者：Kevin Patrick Murphy

第一章：导论

1.1 什么是机器学习，为什么需要机器学习。

　　大数据时代，要求机器能自动分析数据，能从已知的数据中学习一些隐藏的模式，来预测未来的数据，或者执行一些决策。

　　机器学习大体分为两类：预测或者有监督学习：这个方式需要有训练数据库，然后给定输入特征、属性或者协变量，给定输出的信息。如果输出的是类别信息，则称这类问题叫分类问题，或者模式识别问题。如果输出的是连续值，则称这类问题为回归问题（regression)。

　　描述（descriptive）或者无监督学习：这类问题只有输入信息，而没有关于输入的任何结构、模式等信息。给定输入，需要挖掘其内在的一些模式，因此有时候叫知识挖掘（knowledge discovery）。

　　还有第三类学习方法，叫增强学习（reinforcement learning），这类方法是用较少，

1.2 有监督学习：

　　分类问题：给定带有标注的输入数据，训练学习一个预测函数。然后，利用这个预测函数多新的样本进行预测或者标注，这个过程也就推广（generalization）。

　　利用概率模型，我们可以将这类问题描述为概率形成：

　　利用MAP estimate原则，即最大化后验概率来决策。

　　预测问题：给定的输入，输出可能是连续值。比如预测年龄、预测温度等值。

1.3 无监督学习

　　无监督学习意在发掘数据的“有意思”的结构信息，在这类方法中，从概率的角度讲，我们要构建带参数的概率密度估计。

　　无监督学习主要有以下几类：聚类算法、降维算法（高维数据显示）、图的结构挖掘、矩阵填充（matrix completion）。

　　有监督学习通常的概率描述：

　　无监督学习通常的概率描述：

1.4 机器学习中的重要概念

　　1，有参数模型和无参数模型；2，维度灾难；3，线性回归；Logistic回归；4，过拟合；5，模型选择；6，没有免费的午餐原理。

　　【没有免费的午餐原理】：我们在一个数据域上所做的假设，不一定在其他的数据域也同样工作的很好；实际上往往在其他域内性能很差。这个原理产生的结果是，我们开发出很多不同的模型，来覆盖现实世界中的不同的数据。

【本文完】

查看全文

相关阅读:
Linux使用lrzsz上传下载文件
 开发Wordpress主题时没有特色图片的功能
 Windows10重启之后总是将默认浏览器设置为IE
C#泛型类的类型约束
 CentOS给网站配置Https证书
 从微软官网下载VS离线安装包的方法
 Azure Sql Database为某个数据库创建单独的访问账户
 VS2017/2019 Product Key
VMware Workstation/Fusion 14/15 密钥
 将DataTable进行分页并生成新的DataTable

原文地址：https://www.cnblogs.com/hSheng/p/2811364.html