zoukankan      html  css  js  c++  java
  • 初识机器学习-理论篇

    1.什么是机器学习?

    概念:利用计算机从历史数据中找到规律,并把这些规律用到未来不确定场景的决策。

    场景:{①确定性场景②不确定性场景}

    (人来干)数据分析+(计算机来干)机器学习

    2.数据(历史数据)

    3.规律

    从数据中找出规律{①数学函数②数学公式}

    概率论和数理统计

    (先抽样->描述统计->假设检验)

    用模型刻画(拟合)规律(维度较少时还能用,多维的不可用)

    4.机器学习发展的原动力

    经济驱动‘数据变现、用数据代替expert

    5.业务系统发展的历史

    基于专家经验(头脑风暴。。然后交给程序员写iferlse)

    基于统计-分纬度统计(依靠业务报表,数据仓库,olap统计)

    机器学习-在线学习(实时调整)

    6.机器学习的典型应用

    (1)关联规则:“啤酒+尿片”

    (2)用户细分精准营销:聚类(动感地带、神州行、全球通)

    (3)垃圾邮件:朴素贝叶斯

    (4)信用卡欺诈:决策树(银行是否可以贷款给你,即风险识别)

    (5)互联网广告:ctr预估【现行逻辑回归】

    (6)推荐系统:协同过滤

    (7)自然语言处理:情感分析+实体识别+图片识别(深度学习)

        ............更多应用,包括语音识别、自动驾驶、智慧机器人等等

    7.机器学习和数据分析的区别

    (一)数据特点不同:行为数据 vs 交易数据

                                        海量数据 vs 少量数据

                                        全量分析 vs 采样分析

    (二)解决业务问题不同:预测未来 vs 历史发生

    (三)技术手段不同:     CLAP vs 数据挖掘

                                        数据驱动 vs 用户驱动

                          自动进行知识发现 vs 交互式分析

     (四)参与者不同:计算机 vs 数据分析师

     8.机器学习算法分类

    第一种分类方法:有监督学习{ 分类算法  回归算法 }

                                 无监督学习{ 聚类 }

                                 半监督学习{ 强化学习 }

    第二类分类算法:分类和回归

                                 聚类

                                 标注

    第三种分类方法(重要):生成模型(模棱两可)【训练模型思想上有本质区别】

                                               判别模型(给定判断)

     9.机器学习中常用的算法:

    10.机器学习解决问题的框架:

    确定目标:业务需求->数据->特征工程

    定义模型:定义损失函数->优化算法

    模型评估:交叉验证->效果评估

  • 相关阅读:
    Hbase集群部署及shell操作
    sqoop部署与使用
    azkaban部署
    Hive入门操作
    Hive部署
    MapReduce过程详解(基于hadoop2.x架构)
    MapReduce编程中常用的字符操作
    【图文详解】深入HDFS原理
    vue项目跨域问题的解决:vue-cli 开启代理
    beego框架入门(2)
  • 原文地址:https://www.cnblogs.com/cnyulei/p/7745109.html
Copyright © 2011-2022 走看看