zoukankan      html  css  js  c++  java
  • 数据分析第六篇:机器学习分类

    1. 监督学习,非监督学习,半监督学习和增强学习

    机器学习方法分类标准一:

    监督学习:分类、回归

    给机器的训练数据拥有“标记”或“答案”

    有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有LDA主题模型朴素贝叶斯算法隐式马尔科夫模型等,常见的判别方法有SVMLR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。

    非监督学习:

    给机器的训练数据没有“标记”或“答案”

    对没有“标记”的数据进行分类 - 聚类分析

    非监督学习的意义:

    1.对数据进行降维处理

    - 特征提取:信用卡的信用评级和人的胖瘦无关

    - 特征压缩:PCA(尽量少损失数据的情况下,将高维的特征压缩到低维)

    2.异常检测

    半监督学习:

    一部分数据有“标记”,另一部分没有

    更常见:各种原因产生的标记缺失

    通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

    增强学习:(AlphaGo、无人驾驶、机器人)

    根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。

    2. 批量学习,在线学习,参数学习和非参数学习

    1.在线学习和批量学习(离线学习):

    1.1 批量学习

    优点:简单,只需要学习算法的本身,新数据来了,不需要重新学习

    问题:如何适应环境的变化?

    解决方案:定时重新批量学习

    缺点:每次重新批量学习,运算量巨大;在环境变化非常快的话,基本是不可能

    1.2在线学习

    每次输入样例,马上就会拿到正确的结果(股市),然后马上将数据迭代到机器学习算法中

    优点:及时反映新的环境变化

    问题:新的数据带来不好的变化?

    解决:需要加强对数据的监控,非监督学习(可以检测异常数据)

    其他:使用于数据量巨大,完全无法批量学习的环境

    2.参数学习和非参数学习:

    2.1参数学习(线性回归)简单线性回归、多项式线性回归、逻辑回归

    参数学习的特点:

    一旦学习到可参数,就不需要原有的数据集,比如说线性回归

    2.2非参数学习KNN、决策树、随机森林

    不对模型进行过多假设

    非参数不等于没参数

  • 相关阅读:
    Install the Maven in your computer
    《李嘉诚全传》--孙良珠
    Crystal Reports 2008(水晶报表) 第一个报表
    《唤醒心中的巨人》--[美]安东尼·罗宾
    《写给女人》--[美]桃乐丝·卡耐基
    Crystal Reports 2008(水晶报表) JDBC连接mysql数据库
    Crystal Reports 2008(水晶报表) 启动时检查更新
    Crystal Reports 2008(水晶报表) 安装
    《百年孤独》--[哥伦比亚]加夫列尔·加西亚·马尔克斯
    《自己拯救自己》--[英]塞缪尔·斯迈尔斯
  • 原文地址:https://www.cnblogs.com/leijing0607/p/7723615.html
Copyright © 2011-2022 走看看