zoukankan      html  css  js  c++  java
  • hadoop大数据分析与挖掘实战(读书笔记1)

    第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。

    第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。

    基本任务还是得记一下:

    1分类与预测。(有点像量化,股票交易)

    2聚类分析()

    3关联规则()

    4时序模式()

    5偏差检测()

    关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。

    关于数据取样,没啥好说的。

    然后重点在后面,

    数据质量分析:有缺失值怎么办?(就是统计一下缺失率什么的,然后删掉或者补值呗)

    有异常值怎么办?(识别出来然后删掉呗。怎么识别,用四分位图,异常值小于下四分位-四分位距 或大于上四分位+四分位距)  

    数据矛盾怎么办?(可能就是数据旧了呗,比如说换了手机号啥的。更新一下就好啦)

    就是解决这三个问题。

    数据特征分析:分布分析:直方图,分布图,雷达图啥的。

    对比分析:折线图呗。还记得文明5里文明得分折线图么?

    统计量分析:计算均值,方差,标准差,找中值呗

    周期性分析:列出时间表,看看有没有周期性呗。

    贡献度分析(帕累托分析):做帕累托图,直方图+折线(各菜品量+贡献线)

    相关性分析:散点图,回归线性分析呗

    数据预处理:

    数据清洗(删除缺失值,或用拉格朗日,牛顿法补缺失值。删除或不处理异常值,分析异常值。)

    数据集成(合并数据源,解决数据重复冗余的工作)

    数据变换(简单函数变换比如取对数,规划化按比例缩小到[0,1], 连续属性离散化,新属性构造,小波变换)

    数据规约(属性规约,就是删属性呗,数值规约,就是减少数据量呗)

    挖掘建模与模型评价

    挖掘建模就是考虑是哪个问题:

    1分类与预测。(有点像量化,股票交易)

    2聚类分析()

    3关联规则()

    4时序模式()

    5偏差检测()选取相应的模型。

    当然还要用无关的测试集,测试一下来挑战一下模型

  • 相关阅读:
    ueditor1.4.3.all.js报错
    ueditor中FileUtils.getTempDirectory()找不到
    java后台验证码的生成
    applicationContext.xml重要配置
    Java代码实现文件上传(转载)
    jquery动态实现填充下拉框
    POI写入word docx 07 的两种方法
    POI读word docx 07 文件的两种方法
    POI转换word doc文件为(html,xml,txt)
    Linux中zip压缩和unzip解压缩命令详解
  • 原文地址:https://www.cnblogs.com/zzzPark/p/7298325.html
Copyright © 2011-2022 走看看