zoukankan      html  css  js  c++  java
  • [数据] ZZ 数据分析这点事

    感谢作者: caoz

    原文链接: http://hi.baidu.com/ncaoz/item/564975db8fcd6495260ae79e

    // ----------------------------------------------------------------------------

    读后感:

    1, 培养数据感

    2, 解读数据:

    作者的建议很中肯:

    "不炫技,不苛求技术复杂度,最简单的数据,所包含的信息往往是最有价值的,而很多人恰恰这一步都没做好,就总想着弄一堆挖掘算法;数据的价值在于正确的解读,而不是处理算法的复杂度"

    3, 分析数据:

    a, 要避免类似"螃蟹听觉在腿上的"推理:

    作者列出如下的错误方法:

    "

         1、因果关联错误,或忽略关键因素,A和B的数据高度相关,有人就片面认为A影响了B,或者B影响了A;但是,有时候真实原因是C同时影响了A和B,有时候C被忽略掉了。

          2、忽略沉默的大多数,特别是网上投票,调查,极易产生这种偏差,参与者往往有一定的共同诉求,而未参与者往往才是主流用户。

          3、数据定义错误,或理解歧义,在技术与市场、产品人员沟通中产生信息歧义,直接导致所处理的数据和所需求的数据有偏差,结果显著不正确。

          4、强行匹配;不同公司,不同领域的数据定义可能不一致,在同一个公司内或领域内做对比,往往没有问题,大家对此都很习惯,却有评论家不懂装懂,强行将不同定义的数据放在一起对比做结论,显著失真;海外著名金融机构在分析中国页游和端游市场就连续犯这类错误。

          5、忽略前提;有些数据结论是基于某种前提,符合某种特定场景下得出的,但是解读者有意或无意忽略前提,将结论扩大化,显著误读。

          6、忽略交互;在商业模式改造和产品改进,往往都会出这类问题,最简单说,你游戏中的道具降价,对收入的影响是增还是减?如果忽略交互,仅仅依赖于数据推算,当然是减,但是实际呢?做运营的都知道。

          7、缺乏常识;如果对一些重要的纪念日,节日,或者网购节不了解,那去处理有关数据显然就不知所云了。做行业报告更是如此,很难想像对行业不了解的人能做出怎样的报告。

          8、无视样本偏差;我们通常做数据调研,是基于样本数据,而采样过程本身很难做到完全的公平和分散,样本偏差要控制在合理范畴内,即便无法控制,在结论中也需要标注;这才是严谨的数据解读,对样本偏差视而不见,甚至为了某种宣传目的刻意寻找偏差的样本,都不可能做出好的数据结论。

    "

    b, 数据分析, 要注意 横向, 纵向的对比. 细分维度, 找原因. 

  • 相关阅读:
    远程监控JVM
    性能测试的思考
    吴恩达《机器学习》课程总结(11)机器学习系统的设计
    吴恩达《机器学习》课程总结(10)应用机器学习的建议
    吴恩达《机器学习》课程总结(9)神经网络的学习
    吴恩达《机器学习》课程总结(8)神经网络表述
    吴恩达《机器学习》课程总结(7)正则化
    吴恩达《机器学习》课程总结(6)逻辑回归
    吴恩达《机器学习》课程总结(5)Octave教程
    吴恩达《机器学习》课程总结(4)多变量线性回归
  • 原文地址:https://www.cnblogs.com/foreveryl/p/3023467.html
Copyright © 2011-2022 走看看