zoukankan      html  css  js  c++  java
  • 数据分析

    1. 获取数据
    • log file

            从后台server获取应用上报的日志作为数据源,包括不限于新增日志,访问日志,下载日志,以及用户行为日志等。通过awk筛选出关注的字段。

    • cfs(cloud file system)

            从云存储系统获取数据

    • db

             从已有的统计结果中获取数据,目前业务涉及到mysql和oracle。如果需要在hive中做计算,可以用数据工厂中的同步组件把db中数据同步到hive(两步走:db到文件,然后文件系统到hive)

    • hive

            获取hive集群中的数据,目前涉及到上海集群和深圳集群。

    2. 数据处理

          把获取的数据处理成自己想要的样子。

          如果源数据在linux机器上,可以通过perl脚本,或者awk来处理,这种情况适合数据量不大情况下;如果数据量大,比如有按月作业或者按天数据量到千万级别或者亿级别,就建议放在hive集群中来算。文件可以通过日志文件ETL筛选入表格,db中的数据可以使用同步组件。

    3. 数据分析

       对图,表,数字进行分析,常用的方法有横纵对比和趋势分析。要结合数据与业务,深入了解业务,才能对业务的数据有更深入的见地。

         对渠道稽核来说,每个渠道的新增用户,启动用户,渠道新老用户占比,使用应用的时长频率,以及用户留存率及自定义事件的数据都可以纳入分析,通过现象看本质。通过“关系”的思维来看数据。

    把数据当成信仰来做,稳固并且精准。

  • 相关阅读:
    统一身份认证(CAS)客户端测试获取信息代码
    常用的java工具类
    windows 批处理(bat)中执行程序后不等待直接退出(cmd中新进程执行程序)
    持续交付的八条原则,你能做到几条?(转)
    灵动标签调用栏目导航技巧
    .net网络编程(2)网络适配器
    Property Value Inheritance Tip(1)
    排序算法补充
    编码参考(Encoding)
    .net网络编程(3)Socket基础
  • 原文地址:https://www.cnblogs.com/annyliu/p/4664504.html
Copyright © 2011-2022 走看看