最近几天,一直练习prep数据整理清洗,越来越感到tableau prep builder的方便,快捷。
今天练习从https://preppindata.blogspot.com/2019/03/2019-week-4.html的案例,也是tableau public上推荐的类似MakeoverMonday的每周一练。
讲解 的非常详细,适合初中级别的我。
使用正则表达式
prep封装了几个正则表达式函数 , 例如:
对提取字段非常方便。
挑战记录 2019-9
https://preppindata.blogspot.com/2019/04/2019-week-9.html
解答:https://preppindata.blogspot.com/2019/04/2019-week-9-solution.html
简介:tweet上针对商家的一款产品的各种评论。老板希望能够收集评论中有价值的词语。于是进行筛选。
⚠️这是英文评论的数据清洗,中文则有中文的特点。
1拆分,原始数据只有1列,因此按照" "拆分成多列。
2转置,把多列,转为1列。以便进行后面的清洗。
3清洗,
- 去掉无价值的商标词语,
- 使用REGEXP_REPLACE( [words raw], "[^ws'’-]", " "),把非字母/数字/下划线/空格/-的其他字符转化为空格“ ”。 ⚠️s代表空格,^代表取反,w代表字母/数字/下划。
- 过滤掉空值。
- 清洗多余空格。
4拆分,因为上一步使用正则表达式,比如"I'm"会->“I m”,所以要再次使用空格作为分隔符拆分。
- 滤掉空值
5转置,列转行。
6left-outer join, 把另一个表"常用的250个英文单词"和这个清洗过的表关联。即通过left-outer join, 过滤掉常用词。
挑战记录2019-10
解答:https://preppindata.blogspot.com/2019/04/2019-week-11-solution.html
简介:客户通过订阅/关注某公司发送个给他的邮件来购买其公司的产品。公司记录了客户订阅信息,和客献购买的价值,并分别存放到数据表中。
要求:分析流失客户的购买价值,和订阅/再订阅客户的购买价值。
- 数据清洗
- 表连接
- 聚合分析