学习笔记64_机器学习

zoukankan html css js c++ java

学习笔记64_机器学习

机器学习比较基础的任务，就是分类：

一般的分类办法，就是尽可能测量所有可测得属性，或者特别重要的属性（又称为特征），并且由人类评判这些特征是属于什么类别。这样的 [特征-类别]又叫训练样本。

例如：鸟类的 “特征-类别”训练样本

重量（特征1）翅宽（特征2）颜色（特征3）　是/否有脚蹼（特征4）种类(目标变量)

1000 125 灰色无鸟类1

3000 200 棕色有鸟类2

*在分类算法中目标变量的类型通常是离散的，二回归算法中通常是连续的。训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。

机器学习的另一任务，就是回归，主要用于预测数值型数据。

*分类和回归，属于监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。如果想要预测目标变量的值，则可以选择监督学习。如果确定使用监督学习，下一步就要确定目标变量的类型，如果目标变量是离散型,

像上面的鸟类，则选择分类算法；如果是连续型，如0~100，则选择回归算法。

*而非监督学习，就是数据没有类别信息，也不会给定目标值。如果不想预测目标变量的值，可以选择非监督学习算法。如果要仅仅想要将数据划分为离散的组，则使用聚类算法；除此之外，还需要估计数据与每个分组的相似程度，则需要密度估计算法。

*在非监督学习中，将数据集合分成由类似的对象组成的多个类的过程，称聚类。将寻找描述数据统计值得过程，称为密度估计。

*机器学习的步骤：1.收集数据 2.整理数据，形成一定的数据结构 3.分析输入数据(主要是过滤，或者将数据降维，将三维降二维，二维降一维等等) 4.训练数据 5.测试算法（内符合，外符合）6.使用算法

监督学习的用途

K-近邻算法线性回归

朴素贝叶斯算法局部加权线性回归

支持向量机 Ridge回归

决策树 lasso最小回归系数估计

无监督学习的用途

K-均值最大期望算法

DBSCAN Parzen窗设计

查看全文

相关阅读:
pandas常用操作
 python读取文件并写入内容到文件
 《软件工程》学习进度博客13
01梦断代码读后感1—上帝游戏
 软件工程学习进度博客12
《软件工程》个人作业5----单词统计
 用户模板和用户场景
 软件工程学习进度博客11
PHP学习3：简单的流程控制
 《软件工程》个人作业6---找水王

原文地址：https://www.cnblogs.com/pylblog/p/8338121.html

重量（特征1）	翅宽（特征2）	颜色（特征3）	是/否有脚蹼（特征4）	种类(目标变量)
1000	125	灰色	无	鸟类1
3000	200	棕色	有	鸟类2

监督学习的用途
K-近邻算法	线性回归
朴素贝叶斯算法	局部加权线性回归
支持向量机	Ridge回归
决策树	lasso最小回归系数估计

无监督学习的用途
K-均值	最大期望算法
DBSCAN	Parzen窗设计