zoukankan      html  css  js  c++  java
  • 数据分析与挖掘

    数据分析与挖掘

    学习&实战记录
    实战项目1:智取乐食

    从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是 数据挖掘

    数据挖掘基础

    数据挖掘基本任务

    数据挖掘的基本任务包括利用分类预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,提取数据中蕴含的价值。

    数据挖掘建模过程

    1. 定义挖掘目标

    例:针对餐饮行业的数据挖掘应用,可定义如下挖掘目标。

    1. 实现动态菜品智能推荐。
    2. 对餐饮客户进行细分,实现精准营销。
    3. 基于菜品历史销售情况,综合外部因素(节假日、气候、竞争对手等),对菜品销量进行趋势预测。
    4. 基于餐饮大数据,对潜在顾客口味偏好进行分析,便于及时进行菜式调整。

    2. 数据取样

    抽取数据的的标准,一是相关性、二是可靠性、三是有效性

    3. 数据探索

    当拿到一个样本数据集后,ta是否达到了我们原来设想的要求;样本中有没有什么明显的规律和趋势;有没有从未设想的数据状态;属性之间有什么相关性;ta们可区分成怎样的类别等,这都是要探索的内容。
    挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

    4. 数据预处理

    由于采样数据中常常包含许多含有噪声、不完整、甚至不一致的数据,对数据挖掘所设计的数据对象必须进行预处理。
    数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

    5. 挖掘建模

    样本抽取完成后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或智能推荐)选用哪种算法进行模型构建?
    这一步是数据挖掘工作的核心环节。针对餐饮行业的数据挖掘应用,挖掘建模主要包括:

    1. 基于关联规则算法的动态菜品智能推荐
    2. 基于聚类算法的餐饮客户价值分析
    3. 基于分类与预测算法的菜品销量预测
      以菜品销量为例,模型构建是对菜品历史销量,综合考虑了节假日、气候和竞争对手等采样数据轨迹的概括,ta反应的是采样数据内部结构的一般特征,并于该采样数据的具体结构基本吻合。模型的具体化就是菜品销量预测公式,公式可以产生与观测值有相似结构的输出,这就是预测值。

    6. 模型评价

    建模过程中会得出一系列分析结果,模型评价的目的之一就是从这些模型中自动找出最好的模型,另外就是要根据业务对模型进行解释和应用。

    数据探索

    To be filed

    数据预处理

    To be filed

    挖掘建模

    To be filed

    参考 书籍&论文&博客
    《Python数据分析与挖掘实战》张良均 王路等著

  • 相关阅读:
    leetcode 第二题Add Two Numbers java
    二叉树中的那些常见的面试题(转)
    运行的指令
    Python常见经典 python中if __name__ == '__main__': 的解析
    软件测试基本概念
    JAVA Android王牌教程
    17个新手常见Python运行时错误
    QTP
    链表有关的常见面试题
    Robot Framework and Ride
  • 原文地址:https://www.cnblogs.com/cpg123/p/12058015.html
Copyright © 2011-2022 走看看