zoukankan      html  css  js  c++  java
  • (CRISP-DM)数据科学探索流程

    CRISP-DM (Cross Industry Process for Data Mining)模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。

    商业理解(Business Understanding)

    商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。例如:

    • 如何更快的进入一个领域?
    • 参加集训营会影响工资吗?
    • 我们如何预测一个人的工资?
    • 我们如何预测一个人的工作满意度?

    数据理解(Data Understanding)

    数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。

    数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

    数据准备(Data Preparation)

    数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。

    并不是所有的数据挖掘都需要进行建模,如前两个问题,只需要运用简单的描述性和推理性的统计学就可以得到结果。

    建模(Modeling)

    建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。

    在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。

    评估(Evaluation)

    模型评估是要从业务角度和统计角度进行模型结论的评估。

    部署(Deployment)

    数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。

  • 相关阅读:
    Flexigrid在IE下不显示数据的处理
    [置顶] ios 网页中图片点击放大效果demo
    WPF仿360卫士9.0界面设计
    Android调用相机并将照片存储到sd卡上
    Android 将文件保存到SD卡,从卡中取文件,及删除文件
    java 正则表达式学习
    linux下的块设备驱动(一)
    已知用经纬度表示的两点,求两点之间的直线距离
    IndiaHacks 2016
    IndiaHacks 2016
  • 原文地址:https://www.cnblogs.com/JasonBUPT/p/11610469.html
Copyright © 2011-2022 走看看