机器学习：绪论

zoukankan html css js c++ java

机器学习：绪论
1.1引言

喧闹的教室突然变得鸦雀无声，没有抬头的你第一反应就是老板进了教室，赶紧就收起了手里的手机。

结果抬头一看，老板果真进来了；或者有时候抬头一看，什么也没有，大家哈哈一笑。

为什么？为什么你没抬头看就想到会是老板进来了？

因为你以前有过相同或者相似的经历，也就是“经验”。

所以你再一次经历的时候，会根据经验预测到结果，并做出相应的反应。

与此相似的事情有很多，

我们看到天空变阴，刮起冷风，会知道马上要下雨了，如果要出门的话会想到要拿上伞。

我们能做出这些判断，是因为我们已经经历过很多次了，积累了许多“经验”。

正是对这些经验的利用，来对新情况做出判断的。

我们的父母家人总是自称“过来人”的身份，并常说“吃的盐比你吃的饭都多”。

我们思考其实质，其实就是说的他们经历过我们没有经历过的事情，他们有“经验”。

而获得经验的过程中难免会吃亏走弯路，也是一点一点学，最后才变得经验丰富。

运动员同样也是，需要一点一点学习，需要多次的训练，

才能积累更多的经验，在处理相同的事情时才能做出正确的判断。

所以，获得经验的过程也就是“学习”的过程，也就是“训练”的过程。

我们人类是这样基于经验处理事情的，而且这的确是一个不错的方式。

我们希望赋予机器人类的智慧——人工智能，就想能不能让机器掌握这种基于经验处理问题的方式。

答案是肯定的，并且已经有了很多先例。

那么首先就需要让机器获得经验，而获得经验的过程也就是学习的过程，所以就叫做“机器学习”。

在机器的世界里，“经验”的是以“数据”的形式存在的。

1.2基本术语

【获得数据：要进行机器学习，首先要有数据】

假定我们收集了一批关于西瓜的数据：

每对括号都是一条关于一个西瓜的记录，“$=$”意思为“是”

　　　　　　　　　　——————————————————————————————————————————　　　　　　　　　　

　　　　　　　　　　　　　　属性 / 特征

　　　　　　　　　　　　　　　　　$swarrowqquadquaddownarrowqquadquadsearrow$

（色泽=青绿；根蒂=蜷缩；敲声=浊响）　　　　<-- 这条是一个“示例” / “样本”

（色泽=乌黑；根蒂=稍蜷；敲声=沉闷）　　　　<-- 这是另一个“示例” / “样本”

（色泽=浅白；根蒂=硬挺；敲声=清脆）　　　　<-- 这又是一个“示例” / “样本”

……想象还有很多……

　　　　　　　　　　——————————————————————————————————————————
- “数据集”（$dataset$）：所有的这些西瓜的记录
- “示例”（$instance$）或“样本”（$sample$）：其中每一条记录，也就是每一个西瓜的记录
- “属性”（$attribute$）或“特征”（$feature$）：反映这个西瓜某些性质的事项，例如“色泽”，“根蒂”，“敲声”
- “属性值”（$attribute value$）：属性上的取值，例如“青绿”，“乌黑”
- “属性空间”（$attribute spcae$）或“样本空间”（$sample space$）或“输出空间”：属性张成的空间
例如我们把“色泽”，“根蒂”，“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。
- 由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”（$feature vector$）
一般地，令 $D={x_i,x_2,...,x_m}$ 表示包含 $m$ 个示例的数据集，每个示例由 $d$ 个属性描述（例如上面的西瓜数据使用了三个属性），

则每个示例$x_i=(x_{i1},x_{i2},...,x_{id})$ 是 $d$ 维样本空间 $mathcal{X}$ 中的一个向量，$x_iin mathcal{X}$ ，

其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值，（例如上述第3个西瓜在第2个属性上的值是“硬挺”），

$d$ 称为样本 $x_i$ 的“维数”（$dimensionality$）

【开始训练：有了数据，就开始训练数据获取经验】
- “学习”（$learning$）或“训练”（$training$）：从数据中学得模型的过程
这个过程通过执行某个学习算法来完成。
- “训练数据”（$training data$）：训练过程中使用的数据
- “训练样本”（training sample）：训练数据中的每个样本
- “训练集”（training set）：训练样本组成的集合
1.3假设空间

1.4归纳偏好
查看全文

相关阅读:
git在eclipse中的配置转载
 Java annotation 自定义注释@interface的用法转载记录
 Java内存溢出的详细解决方案转载
 sql server 分页、存储过程、视图
 重新认识Asp.Net管道模型
 vim修改替换
 Excel hong
开始第一次Delphi
常用正则表达式的网站
 := 赋值语句

原文地址：https://www.cnblogs.com/ForTech/p/8546854.html