zoukankan      html  css  js  c++  java
  • 数据分析第六篇:机器学习分类

    1. 监督学习,非监督学习,半监督学习和增强学习

    机器学习方法分类标准一:

    监督学习:分类、回归

    给机器的训练数据拥有“标记”或“答案”

    有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有LDA主题模型朴素贝叶斯算法隐式马尔科夫模型等,常见的判别方法有SVMLR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。

    非监督学习:

    给机器的训练数据没有“标记”或“答案”

    对没有“标记”的数据进行分类 - 聚类分析

    非监督学习的意义:

    1.对数据进行降维处理

    - 特征提取:信用卡的信用评级和人的胖瘦无关

    - 特征压缩:PCA(尽量少损失数据的情况下,将高维的特征压缩到低维)

    2.异常检测

    半监督学习:

    一部分数据有“标记”,另一部分没有

    更常见:各种原因产生的标记缺失

    通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

    增强学习:(AlphaGo、无人驾驶、机器人)

    根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。

    2. 批量学习,在线学习,参数学习和非参数学习

    1.在线学习和批量学习(离线学习):

    1.1 批量学习

    优点:简单,只需要学习算法的本身,新数据来了,不需要重新学习

    问题:如何适应环境的变化?

    解决方案:定时重新批量学习

    缺点:每次重新批量学习,运算量巨大;在环境变化非常快的话,基本是不可能

    1.2在线学习

    每次输入样例,马上就会拿到正确的结果(股市),然后马上将数据迭代到机器学习算法中

    优点:及时反映新的环境变化

    问题:新的数据带来不好的变化?

    解决:需要加强对数据的监控,非监督学习(可以检测异常数据)

    其他:使用于数据量巨大,完全无法批量学习的环境

    2.参数学习和非参数学习:

    2.1参数学习(线性回归)简单线性回归、多项式线性回归、逻辑回归

    参数学习的特点:

    一旦学习到可参数,就不需要原有的数据集,比如说线性回归

    2.2非参数学习KNN、决策树、随机森林

    不对模型进行过多假设

    非参数不等于没参数

  • 相关阅读:
    解释机器学习模型的一些方法(一)——数据可视化
    机器学习模型解释工具-Lime
    Hive SQL 语法学习与实践
    LeetCode 198. 打家劫舍(House Robber)LeetCode 213. 打家劫舍 II(House Robber II)
    LeetCode 148. 排序链表(Sort List)
    LeetCode 18. 四数之和(4Sum)
    LeetCode 12. 整数转罗马数字(Integer to Roman)
    LeetCode 31. 下一个排列(Next Permutation)
    LeetCode 168. Excel表列名称(Excel Sheet Column Title)
    论FPGA建模,与面向对象编程的相似性
  • 原文地址:https://www.cnblogs.com/leijing0607/p/7723615.html
Copyright © 2011-2022 走看看