zoukankan      html  css  js  c++  java
  • 初识机器学习

    从数据中寻找规律

    1. 使用模型刻画(拟合)规律:正确的总体趋势;对每一点都有偏差
    2. 机器学习发展的源动力:从历史数据找出规律,把这些规律用到对未来自动做出决定;用数据代替专家;经济驱动,数据变现
    3. 业务系统的变化
      • 离线学习:之前的数据,批处理,训练
      • 在线学习:实时学习,用户每产生一条数据,就训练一次

    机器学习的典型应用

    1. 关联规则:啤酒+尿布:啤酒和纸尿布,人群一般同时购买——一般家庭大采购由丈夫承担,当买完纸尿布这类的必需品后,丈夫一般会自我奖励啤酒:调整货架,提升销量
    2. 用户细分精准营销:移动公司神州行,全球通,动感地带等套餐:聚类:将用户按照特定标准,分为几类
    3. 朴素贝叶斯:垃圾邮件
    4. 决策树:信用卡欺诈
    5. ctr预估:互联网广告:预测点击概率
    6. 协同过滤:推荐系统:买了A的用户,也买了B,提升整体销量
    7. 自然语言处理:情感分析,实体识别(文章中人名,地名等主干提出来)
    8. 图像识别:深度学习
    9. 语音识别,人脸识别,自动驾驶,机器翻译...

    数据分析和机器学习的区别

    1. 数据特点:交易数据-行为数据
    • 交易数据:LT的话费账单,银行账户;少量数据;采样分析
    • 行为数据:搜索历史,购买历史;海量数据;全量分析(从大量数据中提取用户行为);NoSQL
    1. 解决业务问题不同:OLAP报告过去的事情-预测未来的事情
    2. 技术手段不同:用户驱动,交互式分析(OLAP),回答企业正在发生什么-数据驱动,自动进行知识发现(数据挖掘),基于正在发生的事情预测未来
    3. 参与者不同:数据分析师-数据+算法
    4. 目标用户:公司高层-普通个体

    机器学习算法分类

    1. 结果集中是否有结果Y:有监督学习,无监督学习,半监督学习
    • 有监督学习:模型中有X有Y,结果已经打上了标签,预先知道了结果,训练模型:分类算法,回归算法
    • 无监督学习:模型中没有Y,聚类
    • 半监督学习:强化学习,有一些Y值,训练模型一开始可能不好,但之后会越来越好
    1. 解决问题:分类和回归,聚类,标注
    2. 生成模型,判别模型
      • 生成模型:告诉数据是否的概率,属于某一类的概率
      • 判别模型:直接告诉数据是否,哪一类
      • 训练模型的思想
    3. 机器学习常用算法:10大常用算法简介

    机器学习解决问题的框架:预测和聚类

    1. 确定目标
      • 业务需求
      • 数据
      • 特征工程(数据清洗,提取,转换,结构化等,把数据的特征提取出来,最重要,占处理时间的70%,最影响产出效果)
    2. 训练模型
      • 定义模型
      • 定义损失函数(做预测可能出现偏差,定义偏差,评价模型优秀和一般)
      • 优化算法
    3. 模型评估
      • 交叉验证
      • 效果评估
  • 相关阅读:
    js 生成 yyyy-mm-dd 格式的逼格姿势
    使用chrome联调不在同一个域的请求
    linux命令收集
    spring component-scan filter
    命令别名alias设置
    vi命令的使用
    Git中的文件状态和使用问题解决
    Git常用命令
    Maven
    MySQL命令
  • 原文地址:https://www.cnblogs.com/mengnan/p/9307720.html
Copyright © 2011-2022 走看看