以手写数字自动识别为例,每个手写数字用(28*28) 像素图像显示,这样每个样本可以用一个维数为794的向量(x)表示。那么将问题转换为建立一套识别机制,通过输入(x) ,识别出数字的真实值,并且输出该值,值的范围是 (0ldots9) 。
这是个典型的分类问题,自然的想法是通过一些人工的规则和基于形状的辨别方法,但是由于手写体的变化太多,这种固定的处理模式在现实中效果非常不好。
一种更好的解决方式就是 machine learning了:
training set (N)个数字图像 ({mathrm{X}_1,ldots,mathrm{X}_N}) ,用于为模型生成参数;
target vector(t) training set 中数字图像对应的真实值,每个数字图像(mathrm{X})对应一个 目标向量(t);
test set 真实值未知的数字图像;
机器学习算法就是通过training phrase/learning phrase 学习到函数(y(mathrm{X})),通过该函数能够为test set中数字图像预测该图像代表的真实值。
这种对新样本能够正确分类的能力称为generalization 泛化.
pre-processing/feature extraction 实际操作中一般都需要对原始数据做预处理,如上面数字识别的例子中,需要将手写体数字图像都预处理为大小固定为(28*28) 像素图像。预处理通常能方便后面的计算,但预处理时,需要注意是否将有用的信息丢弃了。
机器学习的简单分类:
supervised learning 监督学习: training set 中的样本有对应的target vector
classification 分类
regression 回归
unsupervised learning 非监督学习: training set 中的样本有对应的target vector
clustring 聚类
density estimation 密度估计
visualization 可视化
本书后续会主要用到3大理论知识:
probability theory 概率论,
decision theory 决策论,
and information theory 信息论.