- 获取数据
- log file
从后台server获取应用上报的日志作为数据源,包括不限于新增日志,访问日志,下载日志,以及用户行为日志等。通过awk筛选出关注的字段。
- cfs(cloud file system)
从云存储系统获取数据
- db
从已有的统计结果中获取数据,目前业务涉及到mysql和oracle。如果需要在hive中做计算,可以用数据工厂中的同步组件把db中数据同步到hive(两步走:db到文件,然后文件系统到hive)
- hive
获取hive集群中的数据,目前涉及到上海集群和深圳集群。
2. 数据处理
把获取的数据处理成自己想要的样子。
如果源数据在linux机器上,可以通过perl脚本,或者awk来处理,这种情况适合数据量不大情况下;如果数据量大,比如有按月作业或者按天数据量到千万级别或者亿级别,就建议放在hive集群中来算。文件可以通过日志文件ETL筛选入表格,db中的数据可以使用同步组件。
3. 数据分析
对图,表,数字进行分析,常用的方法有横纵对比和趋势分析。要结合数据与业务,深入了解业务,才能对业务的数据有更深入的见地。
对渠道稽核来说,每个渠道的新增用户,启动用户,渠道新老用户占比,使用应用的时长频率,以及用户留存率及自定义事件的数据都可以纳入分析,通过现象看本质。通过“关系”的思维来看数据。
把数据当成信仰来做,稳固并且精准。