什么是机器学习？

zoukankan html css js c++ java

什么是机器学习？

1. 定义：

   1）from Arthur Samuel：Field of study that gives computers the ability to learn without being explicitly programmed.

即：不直接针对问题进行编程的情况下，赋予机器学习的能力。

   2）from Tom Mitchell：A computer program is said to learn from experience E with respect to some task T and some performance measure P,

if its performance on T, as measured by P, improves with experience E.

即：解决问题 T 的程序能够通过对经验 E 的学习不断提高性能(由 P 度量)。

2. 问题的常见类型

   1）监督学习(Supervised learning)：we gave the algorithm a data set in which the "right answers" were given. 监督学习中的数据

集既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签("right answers")之间的联系，得到一个最优的模型，

在面对只有特征没有标签的数据时，可以判断出标签。

监督学习中每一个具体的输入由特征向量表示，记为

$$x_{i} = (x^{(1)},x^{(2)},...,x^{(n)})^{T}$$

  $x^{i}$ 表示 $x$ 的第 $i$ 个特征，$x_{i}$ 表示第 $i$ 个输入变量。

训练集由输入输出对组成，

$$T = left {(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n}) ight }$$

a. 回归问题(Regression)：Predict continuous valued output.即根据数据样本上抽取出的特征，预测一个连续值的结果。

   它的输入变量和输出变量均为连续变量。常见的有：

   i. 星爷《美人鱼》票房

   ii. 大帝都2个月后的房价

b. 标注问题(tagging)：标注问题的输入是一个观测序列，输出的是一个标记序列或状态序列，即输出的也是一个向量。

   i. 对一个单词序列预测其对应的词性标记序列。

c. 分类问题(Classification)：Predict a discrete valued output.即根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。

   它的输出变量为有限个离散变量。常见的有：

   i. 垃圾邮件识别(结果类别：1、垃圾邮件 2、正常邮件)

   ii. 文本情感褒贬分析(结果类别：1、褒 2、贬)

   iii. 图像内容识别识别(结果类别：1、喵星人 2、汪星人 3、人类 4、草泥马 5、都不是)。

   2）非监督学习(Unsupervised learning)：we gave the algorithm a data set in which the "right answers" were not given.即算法不知道数

据集中数据、特征之间的关系(无标签)，而是要根据聚类或一定的模型得到数据之间的关系。

a. 聚类问题(Clustering)：根据数据样本上抽取出的特征，让相关的样本在同一组内。

   i. google的新闻分类

   ii. 用户群体划分

查看全文

相关阅读:
226_翻转二叉树
 199_二叉树的右视图
 145_二叉树的后序遍历
 做IT,网络/系统/数据库/软件开发都得懂
 [恢]hdu 1200
[恢]hdu 2080
[恢]hdu 1222
[恢]hdu 1128
[恢]hdu 2153
[恢]hdu 2132

原文地址：https://www.cnblogs.com/yanghh/p/13268519.html