zoukankan      html  css  js  c++  java
  • 数据分析实战——06 | 学数据分析要掌握哪些基本概念?

    • Apriori 算法
      • 他通过分析购物篮中的商品集合,找出商品之间的关联关系
      • 利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额
    • 商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系
      • 数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金
      • 数据仓库可以说是数据库的升级概念。不过从数量上来讲,数据仓库的量更庞大,适用于数据挖掘和数据分析
      • 数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘
      • 数据挖掘的核心包括分类、聚类、预测、关联分析等任务
      • 企业老板总是以结果为导向,他们认为商业报告才是他们想要的,但是这也是需要经过地基 DW、搬运工 ETL、科学家 DM 等共同的努力才得到的
    • 数据仓库中的元数据 VS 数据元
      • 在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据
      • 在图书这个元数据中,书名、作者、出版社就是数据元
    • 数据挖掘的流程
      • 数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现
        • 1. 分类KNN
          • 就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
        • 2. 聚类k-means
          • 聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
        • 3. 预测
          • 顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
        • 4. 关联分析
          • 就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。
      • 数据预处理中,我们会对数据进行几个处理步骤:数据清洗,数据集成,以及数据变换。
        • 1. 数据清洗
          • 主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。
        • 2. 数据集成
          • 是将多个数据源中的数据存放在一个统一的数据存储中。
        • 3. 数据变换
          • 就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。
      • 数据后处理是将模型预测的结果进一步处理后,再导出。比如在二分类问题中,一般能得到的是 0~1 之间的概率值,此时把数据以 0.5 为界限进行四舍五入就可以实现后处理。
    • 上帝不会告诉我们规律,而是展示给我们数据
  • 相关阅读:
    花匠
    积木
    Hello world
    老鼠走迷宫全部路径
    今天下午选做题目
    整数高精度运算——加法
    博客启航
    解线性不定方程
    关于完全背包问题
    关于最小代价子母树
  • 原文地址:https://www.cnblogs.com/minimalist/p/12786596.html
Copyright © 2011-2022 走看看