zoukankan      html  css  js  c++  java
  • 机器学习笔记

    <!doctype html>机器学习笔记

    机器学习入门笔记

    AI和ML:

    1. AI:机器像人一样思考,具备人类的智能
    2. 研究AI目的:让机器像人一样思考;
    3. 核心技术:机器学习
    4. 人工智能的发展:

    GitHub

    5.AI的组成:

      感知->决策->反馈

    6.ML和AI的关系:

    • 机器学习是AI的一种方法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;
    • 深度学习是机器学习的一种实现方式,通过模拟人神经网络的方式来训练网络;
    • 而统计学是机器学习和神经网络的一种基础知识。

    机器学习的特点&过程

    特点:

    • 利用数据(而不是指令)来进行各种工作

    ML过程:

    • 特征提取-数据预处理-训练模型-测试模型-模型评估改进
    • GitHub

    机器学习算法

    1. 传统ML算法

      • 回归

        • 概念:建立一个回归方程来预测目标值,用于连续型分布预测

        • 实例:

          • 线性回归:预测房价(详见吴恩达AL视频公开课)、电影票房预测
        • 分类

        • 概念:给定大量带标签的数据,计算出未知标签的取值

        • 实例:

          • 逻辑回归

            • 概念:通过Sigmoid函数将线性结果映射到Sigmoid函数中,预估事件出现的概率并分类
            • 实例:预测肿瘤的良性or恶性。
          • K-相邻

            • 概念:用距离度量最相近的分类标签

            • 算法原理:

              • 计算数据中点与当前点之间的距离
              • 算法提取最相似数据(最近邻)的分类标签
              • 确定前K个点所在类的出现频率,一般只选择样本数据集中前K个最相似的数据,(K<=20)
              • 返回前K个点出现频率最高的类别座位当前点的预测
            • 实例:判断电影是爱情片还是动作片

          • 朴素贝叶斯:

            • 概念:选择概率最大的类为分类标签(计算样本属于各个类别的概率,取概率最大的作为分类依据)
            • 实例:文本分类、垃圾文本过滤,情感判别,多分类实时预测
          • 决策树

            • 概念:构造一棵熵值下降最快的分类树
            • 实例:用户分类评估、贷款风险评估、选股、投标决策
          • 支持向量机(SVM)

            • 概念:构造超平面,分类非线性数据

            • SVM原理:

              • 当一个分类问题,数据是线性可分的,让线的位置离小球最远,寻找最大间隔的过程,就是最优化(如下图)

                GitHub

              • 当数据线性不可分,通过核函数 ,将数据从二维映射到高维。(如下图)

                GitHub

      • 聚类:(非监督学习的算法)

        • 概念:将不带标签的数据根据距离聚集成不同的簇,每个簇数据有共同的特征

        • 分类与聚类的区别:将所给数据划分到已标记好的分类中去;

          聚类:对未标记的数据集,通过算法自动将相同元素分为子集或者簇。

          GitHub

        • 实例:

          • K-means

            • 概念:计算质心,聚类无标签数据

            • 算法思想:

              1. 随机生成K个初始点作为质心
              2. 将dataset中数据按照距离质心的远近分到各个簇中
              3. 将各个簇中数据求平均值,作为新的质点,重复上一步,直到稳定。两个分类间隔越远,则聚类效果越好。
            • 实例:客户价值细分,精准投资、图片压缩

      • 关联分析

        • 概念:计算出数据之间的频繁项集合

        • 实例:尿布和啤酒

        • FP-growth算法:

          1. 从购物车数据中挖掘出频繁项集
          2. 从频繁项集中产生关联规则,计算支持度
          3. 输出置信度
      • 降维

        • 概念:将高维空间的数据点映射到低纬度的空间中,维度越高,和原始数据越接近

        • 实例:将图片(图片上仅有一个数字“3”)降维到一维仍然能识别图片。

          GitHub

        • 主成分分析算法(PCA)

          • 概念:通过某种线性投影,将高维的数据映射到低维,期待在所投影的维度上数据的方差最大,(使用较少的数据维度,保留较多的元数据的特点)

    AL算法框架图

    GitHub


    人工神经网络(DL的基础)

    • 思想:逐层抽象,逼近任意函数

    • 图示

      GitHub


    深度学习

    1. 概念:是机器学习的分支,是对人工神经网络的发展。是AI爆炸的核心驱动。

    2. DL和传统的机器学习的区别:

      GitHub

      3.实例:图像识别、语音识别、机器翻译、自动驾驶、金融风控、智能机器人

      机器学习总结

      将统计学、概率论等数学知识用用在AI领域。各种算法简单了解一下即可(可以直接调用)注重开发&创新。

      sqc

      ​ 2018年10月4日

  • 相关阅读:
    Ubuntn16.04+OpenCV3.1+CUDA8.0+cudnn5.1+caffe配置及问题集锦
    理解最短路径-Dijkstra算法
    使用git命令从github上clone项目
    Vscode中问题
    windows和ubuntn互传文件
    Python中的一些模块用法
    机器学习中矩阵的求导知识
    训练集,验证集,测试集
    Javascript、Jquery获取浏览器和屏幕各种高度宽度
    DTCMS规格统一赋值
  • 原文地址:https://www.cnblogs.com/sqchao/p/11073254.html
Copyright © 2011-2022 走看看