zoukankan      html  css  js  c++  java
  • Day01 基础篇(一)何为数据分析?何为数据挖掘?

    一、数据分析的三个重要组成成分

      (1)数据采集

          获取数据源(Python爬虫、八爪鱼)

      (2)数据挖掘

          十大算法原理、数学基础、基本流程

      (3)数据可视化

          工具的使用(微图、DataV、DataGIF Maker)

          Python类库的使用(Matplotlib、Seaborn)

    二、学习数据分析最好的方法

      在工具中灵活运用、在项目中加深理解

    三、两条准则

      (1)不重复造轮子,要善于灵活运用类库

      (2)工具决定效率,使用使用者最多的工具。

    四、数据挖掘的基本流程

      (1)商业理解:对项目从商业角度进行需求分析,再对挖掘的目标进行定义

      (2)数据理解:收集部分数据(自主进行数据描述、质量验证等操作),了解数据

      (3)数据准备:清洗数据、集成数据

      (4)模型建立:运用数据挖掘模型优化分类结果

      (5)模型评估:评价模型、查看其是否实现商业目标

      (6)上线发布:用用户可以使用的方式呈现出项目

    五、数据挖掘的十大算法

      1、分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART

        (1)C4.5

            属于决策树算法,对决策树构造过程进行减枝,可以处理连续属性,也可以对不完整的数据进行处理。

        (2)朴素贝叶斯

            要给未知物体分类,求解未知物体出现条件下不同类别的概率,概率最大的分类即为未知物体分类。

        (3)SVM

            支持向量机。用于建立超平面分类模型。

        (4)KNN

            K最近邻算法。每个样本都可以用最接近的K个邻居代表,若K个邻居属于相同分类A,则样本也属于分类A。

        (5)Adaboost

            建立联合的分类模型,构建分类器的提升算法,将多个弱分类器组成一个强分类器。

        (6)CART

            代表分类和回归树,属于决策树算法。

      

      2、聚类算法:K-Means、EM

        (1)K-Means

            确定类别的中心点,只要计算新点与中心点之间的距离就可以判断新点的类别。

        (2)EM

            最大期望算法,用于求参数的最大似然估计,赋予A初值,得到B估值,再由B估值重新估计A,一直持续直到收敛。

      3、关联分析:Apriori

        (1)Apriori

            挖掘关联规则的算法,从频繁项集中挖掘出物品之间的关系。

      4、连接分析:PageRank

        (1)PageRank

            通过页面的引用次数划分网站的权重。

    六、数据挖掘中的数学原理

      1、概率论与数理统计

        条件概率、独立性、随机变量、多维随机变量

      2、线性代数

        向量、矩阵特征值、特征向量

        基于矩阵的各种运算的解决方法:PCA、SVD、MF、NMF

      3、图论

        社交网络中,人与人的关系,可以用图论上的两个节点进行连接,节点的度可以理解为一个人的朋友数,图论对于网络结构的分析非常有效,在关系挖掘和图像分割中具有重要作用。

      4、最优化方法

        相当于机器学习中的自我学习过程,最优化方法就是用更短的时间得到收敛,取得更好的效果。

  • 相关阅读:
    requests模块
    unitest模块
    doctest模块
    SessionStorage
    jquery选择器
    jquery操作dom
    jquery事件
    jquery筛选
    页面跳转传值接收
    HTML5 Web SQL 数据库操作
  • 原文地址:https://www.cnblogs.com/MurasameLory-chenyulong/p/14275647.html
Copyright © 2011-2022 走看看