zoukankan      html  css  js  c++  java
  • 机器学习十讲学习笔记第一讲

    机器学习第一讲

    • 大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。
    • 机器学习是大数据分析的核心内容。机器学习解决的是找到将XY关联的模型F,从DataX的步骤通常是人工完成的(特征工程)。
    • 深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成DataX的转换。
    • 如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGO)的行为,则这类任务称为人工智能。深度学习也是目前AI中的核心技术

    机器学习方法分3类:

    • 有监督学习(supervised learning)
      • 数据集中的样本带有标签,有明确目标
      • 回归和分类
    • 无监督学习(unsupervised learning)
      • 数据集中的样本没有标签,没有明确目标
      • 聚类、降维、排序、密度估计、关联规则挖掘
    • 强化学习(reinforcement learning)
      • 智慧决策的过程,通过过程模拟和观察来不断学习、提高决策能力
      • 例如:AlphaGo

    有监督学习:

    • 数据集中的样本带有标签
    • 目标:找到样本到标签的最佳映射
    • 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
    • 典型方法
      • 回顾模型:线性回归、岭回归、LASSO和回归样条等
      • 分类模型:逻辑回归、k近邻、决策树、支持向量机等

    无监督学习:

    • 聚类:讲数据集中相似的样本进行分组,使得:
      • 同一组对象之间尽可能相似;
      • 不同组对象之间尽可能不相似。
    • 应用场景:
      • 基因表达水平聚类
      • 篮球运动员划分
      • 客户分析

    强化学习:

    • 基本概念
      • agent:智能体
      • environment:环境
      • state:状态
      • action:行动
      • reward:奖励
    • 策略:π
    • 目标:
      • 求解最大化效用E的最优策略

    过拟合问题

    • 模型过于复杂,导致所选模型对已知数据预测得很好,但对未知数据预测很差。

    度量结构:以文本处理为例,计算两篇文章词频向量的余弦相似度。

    k近邻算法最常用的数据结构为k-d树,它是二叉搜索树。

    PageRank算法:

    • 在网络结构上定义邻接矩阵A=[aij],其中aij定义为节点ij相连为1否则为0

    • 从邻接矩阵得到概率转移矩阵,T=[tij],其中

      tij=aijjaijtij=aij∑jaij
    • 如果用πi表示节点i的重要性,求解方程π=πT

    • 可见PageRank的解是转移矩阵特征值1对应的特征向量

  • 相关阅读:
    3.30一周拾遗
    3.25周 一周拾遗
    自动加载以及Composer的实现
    MySQL 事务处理
    PHP代码实现3 [函数角度]
    PHP代码实现2 [从变量和数据的角度] 1
    PHP代码实现2 [从变量和数据的角度] 2
    vue 报错: [Vue warn]: Error in nextTick: "RangeError: Maximum call stack size exceeded" 很可能是你的name错了
    vue电商开发记录1—实现电商图片放大镜,移入放大效果
    vue图片点击放大预览v-viewer
  • 原文地址:https://www.cnblogs.com/52bb/p/14471669.html
Copyright © 2011-2022 走看看