<!doctype html>机器学习笔记
机器学习入门笔记
AI和ML:
- AI:机器像人一样思考,具备人类的智能
- 研究AI目的:让机器像人一样思考;
- 核心技术:机器学习
- 人工智能的发展:
5.AI的组成:
感知->决策->反馈
6.ML和AI的关系:
- 机器学习是AI的一种方法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;
- 深度学习是机器学习的一种实现方式,通过模拟人神经网络的方式来训练网络;
- 而统计学是机器学习和神经网络的一种基础知识。
机器学习的特点&过程
特点:
- 利用数据(而不是指令)来进行各种工作
ML过程:
- 特征提取-数据预处理-训练模型-测试模型-模型评估改进
机器学习算法
-
传统ML算法
-
回归:
-
概念:建立一个回归方程来预测目标值,用于连续型分布预测
-
实例:
- 线性回归:预测房价(详见吴恩达AL视频公开课)、电影票房预测
-
分类:
-
概念:给定大量带标签的数据,计算出未知标签的取值
-
实例:
-
逻辑回归:
- 概念:通过Sigmoid函数将线性结果映射到Sigmoid函数中,预估事件出现的概率并分类
- 实例:预测肿瘤的良性or恶性。
-
K-相邻
-
概念:用距离度量最相近的分类标签
-
算法原理:
- 计算数据中点与当前点之间的距离
- 算法提取最相似数据(最近邻)的分类标签
- 确定前K个点所在类的出现频率,一般只选择样本数据集中前K个最相似的数据,(K<=20)
- 返回前K个点出现频率最高的类别座位当前点的预测
-
实例:判断电影是爱情片还是动作片
-
-
朴素贝叶斯:
- 概念:选择概率最大的类为分类标签(计算样本属于各个类别的概率,取概率最大的作为分类依据)
- 实例:文本分类、垃圾文本过滤,情感判别,多分类实时预测
-
决策树
- 概念:构造一棵熵值下降最快的分类树
- 实例:用户分类评估、贷款风险评估、选股、投标决策
-
支持向量机(SVM)
-
概念:构造超平面,分类非线性数据
-
SVM原理:
-
当一个分类问题,数据是线性可分的,让线的位置离小球最远,寻找最大间隔的过程,就是最优化(如下图)
-
当数据线性不可分,通过核函数 ,将数据从二维映射到高维。(如下图)
-
-
-
-
-
聚类:(非监督学习的算法)
-
概念:将不带标签的数据根据距离聚集成不同的簇,每个簇数据有共同的特征
-
分类与聚类的区别:将所给数据划分到已标记好的分类中去;
聚类:对未标记的数据集,通过算法自动将相同元素分为子集或者簇。
-
实例:
-
K-means
-
概念:计算质心,聚类无标签数据
-
算法思想:
- 随机生成K个初始点作为质心
- 将dataset中数据按照距离质心的远近分到各个簇中
- 将各个簇中数据求平均值,作为新的质点,重复上一步,直到稳定。两个分类间隔越远,则聚类效果越好。
-
实例:客户价值细分,精准投资、图片压缩
-
-
-
-
关联分析:
-
概念:计算出数据之间的频繁项集合
-
实例:尿布和啤酒
-
FP-growth算法:
- 从购物车数据中挖掘出频繁项集
- 从频繁项集中产生关联规则,计算支持度
- 输出置信度
-
-
降维:
-
概念:将高维空间的数据点映射到低纬度的空间中,维度越高,和原始数据越接近
-
实例:将图片(图片上仅有一个数字“3”)降维到一维仍然能识别图片。
-
主成分分析算法(PCA)
- 概念:通过某种线性投影,将高维的数据映射到低维,期待在所投影的维度上数据的方差最大,(使用较少的数据维度,保留较多的元数据的特点)
-
-
AL算法框架图
人工神经网络(DL的基础)
-
思想:逐层抽象,逼近任意函数
-
图示