zoukankan      html  css  js  c++  java
  • 【业务建模_2】通用数据工具

    背景

    在公司做数据工作会接触很多相关工具,这里会汇总一些核心并更理想化的工具。

    工具汇总

    1.打点平台

    module,op,参数数组(s0-s5),常用参数,[实际打点位置截图,打点触发条件说明]
    ——后两者暂时没有,但在使用过程中发现经常不知道某个打点到底是什么意思。打点变化太快了,而且历史打点不规范经常没有人上传原型流程图;实时测试打点有延迟,测完发现少很多认为应该有的点,多了一些不应该有的点;有些点可能是开发直接加的点,未经过打点平台,没有中文名字比较难理解;即使有的点看懂了,实际触发条件并不一定是所想的。
    另外,日志中经常有一系列相关的点需要一起看,增加系列(也可以说增加多层module)和系列层级也许会更好。
    有什么工具可以图形化显示op关系?比如我以前用Excel树状结构来表示,但op太多太复杂也很难看。
    ——其实我想过在可视化日志统计上实现这样的功能,即在图形甚至原型流程图上显示uv/转化率/pv比uv等数据;还有个想法是在看单个人的日志时发现很难理解用户操作流程,能直接开发个工具将日志流复现为原型流程图甚至动态的app操作更好了(想得美==)。

    2.事件分析&漏斗分析

    基于日志数据,甚至整合常用维度(比如城市、性别等)。
    事件分析,即基于一个度量事物(比如uv),能进行筛选,并可按某些维度分组计算。
    漏斗分析,即基于一系列事件的某个度量事物,能筛选,并能组织漏斗上下层级是left join还是只是不left join(上下层事件互相独立)。

    3.timeline

    按时间点组织,将各个时间点发生的版本升级、功能变化等等时间记录下来,并标签可能影响的指标,便于分析时关联上。
    ——这个是我一直想做但没做的。

    4.hive/spark

    这一套指整个离线数仓,t+1同步。通常需要了解线上表(找开发问)+同步过程(数仓负责,涉及数据字典和同步规则——增量全量拉链等)+线下表。
    hive/spark是在持续版本更新的,UDF也需要数仓去建,所以在写SQL应用某些函数时遇到不能解决的可以问数仓。

    5.报表&可视化平台

    大小公司必不可少的,使用者通常是不懂数据的业务人员+老板。差一点的就直接是报表和固定的可视化内容,好一点是能由分析师自建可视化内容共享出来。
    这里涉及到数据表建模,中间表任务,前端可视化控件。
    ——其实最重要的是数据表建模,玩过tableau都知道就是一些事实表+维度表,然后创建各种维度和计算度量就好。但很多时候没有人知道数据建模这个职能的存在,所以经常是分析师玩自己的,BI团队建自己的,然后并没有人用。

    6.实时流量平台

    这个主要针对需要实时监控的指标,例如收入,uv等。

    7.定时邮件任务&表任务工具

    分析师经常会接到一些快速报表需求,直接用SQL出表,此时定时邮件任务就很好用了。
    很多时候底层表太麻烦,或一条SQL很难搞定的,也会自己建中间表;或者有些外部数据要应用到SQL中,建表辅助也是很好用的。
    ——其实有建表+邮件工具+可视化控件,报表需求分析师都能搞定。

    Without summary,you can't master it.
  • 相关阅读:
    使用C#实现DHT磁力搜索的BT种子后端管理程序+数据库设计(开源)
    便携版WinSCP在命令行下同步文件夹
    ffmpeg (ffprobe)分析文件关键帧时间点
    sqlite删除数据或者表后,回收数据库文件大小
    ubuntu 20.04下 freeswitch 配合 fail2ban 防恶意访问
    ffmpeg使用nvenc编码的结论记录
    PC版跑跑卡丁车 故事模式 亚瑟传说章节 卡美洛庆典 2阶段 心灵之眼 攻略
    There was an error loading or playing the video
    Nvidia RTX Voice 启动报错修复方法
    火狐浏览器 关闭跨域限制
  • 原文地址:https://www.cnblogs.com/everda/p/10382987.html
Copyright © 2011-2022 走看看