机器学习十讲学习笔记第一讲

zoukankan html css js c++ java

机器学习十讲学习笔记第一讲
机器学习第一讲
- 大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
- 机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F，从Data到X的步骤通常是人工完成的（特征工程）。
- 深度学习是机器学习的一部分，其核心是自动找到对特定任务有效的特征，也即自动完成Data到X的转换。
- 如果我们的任务Y是模拟人类（自动驾驶、围棋AlphaGO）的行为，则这类任务称为人工智能。深度学习也是目前AI中的核心技术
机器学习方法分3类：
- 有监督学习（supervised learning）
  
  数据集中的样本带有标签，有明确目标
  
  回归和分类
- 无监督学习（unsupervised learning）
  
  数据集中的样本没有标签，没有明确目标
  
  聚类、降维、排序、密度估计、关联规则挖掘
- 强化学习（reinforcement learning）
  
  智慧决策的过程，通过过程模拟和观察来不断学习、提高决策能力
  
  例如：AlphaGo
有监督学习：
- 数据集中的样本带有标签
- 目标：找到样本到标签的最佳映射
- 应用场景：垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
- 典型方法
  
  回顾模型：线性回归、岭回归、LASSO和回归样条等
  
  分类模型：逻辑回归、k近邻、决策树、支持向量机等
无监督学习：
- 聚类：讲数据集中相似的样本进行分组，使得：
  
  同一组对象之间尽可能相似；
  
  不同组对象之间尽可能不相似。
- 应用场景：
  
  基因表达水平聚类
  
  篮球运动员划分
  
  客户分析
强化学习：
- 基本概念
  
  agent：智能体
  
  environment：环境
  
  state：状态
  
  action：行动
  
  reward：奖励
- 策略：π
- 目标：
  
  求解最大化效用E的最优策略
过拟合问题
- 模型过于复杂，导致所选模型对已知数据预测得很好，但对未知数据预测很差。
度量结构：以文本处理为例，计算两篇文章词频向量的余弦相似度。

k近邻算法最常用的数据结构为k-d树，它是二叉搜索树。

PageRank算法：
- 在网络结构上定义邻接矩阵A=[a_ij]，其中a_ij定义为节点i与j相连为1否则为0
- 从邻接矩阵得到概率转移矩阵，T=[t_ij]，其中
  
  $t i j = a i j \sum j a i j$
- 如果用π_i表示节点i的重要性，求解方程π=πT
- 可见PageRank的解是转移矩阵特征值1对应的特征向量
查看全文

相关阅读:
LAMP 服务器环境
 LAMP 环境搭建
 为何程序员总喜欢写技术博客，看完恍然大悟...
沉入海底2年的微软数据中心浮出水面：故障率只有陆地上的1/8，除了长点贝类和藻类完全没问题...
真正毁掉一个人的，是“打工者心态”
包装严重的 IT 行业，作为面试官，我是如何甄别应聘者的包装程度
 一名测试实习生的心路历程（二）
7年赚的2个亿，数学家6年就花光了，全砸在自家的房子上
 “蚂蚁牙黑，蚂蚁呀吼”一夜间火遍全网？别忽略了潜在风险
 面试常问的 25+ 个 Linux 命令

原文地址：https://www.cnblogs.com/52bb/p/14471669.html

机器学习十讲学习笔记第一讲

机器学习第一讲