机器学习第一讲
- 大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
- 机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F,从Data到X的步骤通常是人工完成的(特征工程)。
- 深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成Data到X的转换。
- 如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGO)的行为,则这类任务称为人工智能。深度学习也是目前AI中的核心技术
机器学习方法分3类:
- 有监督学习(supervised learning)
- 数据集中的样本带有标签,有明确目标
- 回归和分类
- 无监督学习(unsupervised learning)
- 数据集中的样本没有标签,没有明确目标
- 聚类、降维、排序、密度估计、关联规则挖掘
- 强化学习(reinforcement learning)
- 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力
- 例如:AlphaGo
有监督学习:
- 数据集中的样本带有标签
- 目标:找到样本到标签的最佳映射
- 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
- 典型方法
- 回顾模型:线性回归、岭回归、LASSO和回归样条等
- 分类模型:逻辑回归、k近邻、决策树、支持向量机等
无监督学习:
- 聚类:讲数据集中相似的样本进行分组,使得:
- 同一组对象之间尽可能相似;
- 不同组对象之间尽可能不相似。
- 应用场景:
- 基因表达水平聚类
- 篮球运动员划分
- 客户分析
强化学习:
- 基本概念
- agent:智能体
- environment:环境
- state:状态
- action:行动
- reward:奖励
- 策略:π
- 目标:
- 求解最大化效用E的最优策略
过拟合问题
- 模型过于复杂,导致所选模型对已知数据预测得很好,但对未知数据预测很差。
度量结构:以文本处理为例,计算两篇文章词频向量的余弦相似度。
k近邻算法最常用的数据结构为k-d树,它是二叉搜索树。
PageRank算法:
-
在网络结构上定义邻接矩阵A=[aij],其中aij定义为节点i与j相连为1否则为0
-
从邻接矩阵得到概率转移矩阵,T=[tij],其中
tij=aij∑jaijtij=aij∑jaij -
如果用πi表示节点i的重要性,求解方程π=πT
-
可见PageRank的解是转移矩阵特征值1对应的特征向量