zoukankan      html  css  js  c++  java
  • 《谁说菜鸟不会数据分析(入门篇)》,读书笔记

    第一章
    1定义:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
    2目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。
    3分类:数据分析可划分为描述性数据分析,探索性数据分析和验证性数据分析。描述性分析是日常工作中主要的数据分析,有对比分析法、平均分析法、交叉分析法。而探索性数据分析以及验证性数据分析属于高级数据分析,常见的方法有相关分析、因子分析、回归分析。




    4数据分析的作用:现状分析、原因分析、预测分析
    5数据分析操作分6步:
    1、明确分析目的和思路
    分析思路:
    • 营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等;
    • 管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等
    2、数据收集:数据库、公开出版物、互联网、市场调查
    3、数据处理:数据清洗、数据转化、数据提取、数据计算等处理方法
    4、数据分析
    5、数据展现
    6、报告攥写
    6数据分析师的职业要求:懂业务、懂管理、懂分析、懂工具、懂设计(五懂)
    7几个常用指标和术语
    1平均数:代表总体的一般水平,掩盖了总体内各单位的差异
    2绝对数与相对数
    • 绝对数:反映总规律
    • 相对数:反映现象之间数量联系程度的程度
    3、百分比和百分点
    • 百分比
    • 百分点:不同时期以百分数的形式表示的相对指标的变动幅度
    4、频数与频率
    • 频数:一组数据中个别数据重复出现的次数(绝对数)
    • 频率:每组类别次数与总次数的比值,代表某类别占总体出现的频繁程度。
    5、比例与比率
    • 比例:总体中各部分的数值占全部数值的比重,反映总体的个构成和结构
    • 比率:不同类别数值的对比,反映整体中各部分之间的关系
    6、倍数与番数
    • 倍数:C=A/B一个数除以另一个数的商,表示数量的增长或者上升幅度
    • 番数:原来雨量的2n次倍
    7、同比与环比
    • 同比:历史同时期进行比较,反映事物发展的相对情况。相差是周期
    • 环比:指一个统计期进行比较,反映事物逐期发展的情况。相差是1

    小结:

    分析时注意:
    1、先总体后局部
    2、结构为王!

    第五章 数据分析
    1、数据分析方法论与数据分析

    2、数据分析方法

    1、对比分析方法:将2个或者2个以上的数据进行比较,分析差异,从而揭示数据所代表的事情发展情况和规律(静态对比和动态对比)
    2、分组分析方法:不仅都总体数量特征和数量关系进行分析,还要深入总体内部进行分组分析。
    1、确定组数
    2、确定组距
    3、结构分析方法:总体内占各部分总体的比例
    4、平均分析方法:平均数反映总体在一定时间条件下某一数量特征的一般水平
    1、可以对比显示差异程度,比用总量指标更具说服力
    2、对比不同时期,说明发展趋势和规律
    5、交叉分析法:分析两个变量之间的关系,将两个有一定联系的变量及其值排列成一张2维表,使各变量值成为不同变量的交叉结点


    6、综合评价分析法:将多个指标转化为一个能够反映综合情况的指标进行评价(计算加权的方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法,目标优化矩阵表

    • 目标优化矩阵表(排序)P114


    7、杜邦分析法:分析A公司市场占有率下降原因

    8、漏斗图分析法:业务流程
    • 结合对比分析法、分组分析比较同一环节优化前后、不同用户群、同行类似的转化率

    9、矩阵关联分析法(象限图分析法):根据事物的两个重要指标,关联分析,分为重要不重要等优先级帮助决策。

    • 增加第三个指标:
    1、研究发展情况:时间
    2、改进难易程度的指标(气泡图)
    2.1利润(绝对数值)
    10高级数据分析方法

    11数据分析工具
    数据透视表:就是列联表,多列关系展示和查询
     
     分析工具库
     
    1、基本统计分析
    2、直方图:柏拉图(帕累托图:将直方图按频数大小排序
    3、抽样:
    间隔抽取,固定间隔提取数据(这个也叫做抽样!resample。。。)
    随机抽样:有放回的随机抽样
     4、相关分析:
    相关关系:2者,一个会影响另一个的变化(变化可以使随机的!,因为还有其它影响因素存在)
    回归函数系数:2者依存关系,相互对应。可以做预测

    直线相关:用相关系数指示
    曲线相关:用相关指数指示
    多重相关:用复相关系数指示
    5、回归分析(太强大了!)
    多重线性回归:多个自变量和一个因变量
    多元线性回归:一个自变量和多个因变量
    (比如多个自变量之间有相互依赖关系)
    6、时间序列
    移动平均:消除季节或偶然因素干扰而产生的随机变动影响
    指数平滑
    趋势外推
    季节变动

    趋势外推法的补充:
    1、利用差分法把非平稳序列修匀!
     
     
     
    2、
     
     
     








  • 相关阅读:
    RAC连接时的2种方式Connect Time Failver和taf
    ElasticSearch Root身份运行
    sql in按照指定顺序排序
    JAVA字符串格式化-String.format()的使用
    java.lang.IllegalArgumentException: An invalid domain [.test.com] was specified for this cookie
    全文搜索引擎 Elasticsearch 入门教程
    监控页面后退前进,浏览器文档加载事件之pageshow、pagehide
    ios 上浏览器返回上一页不会刷新页面问题,页面初始化的方法不执行
    SQL之case when then用法
    MySQL表的四种分区类型
  • 原文地址:https://www.cnblogs.com/xuancaoyy/p/5816757.html
Copyright © 2011-2022 走看看