zoukankan      html  css  js  c++  java
  • Preppin' Data 一个prep提高数据整理能力的网站(每周一挑战)

    最近几天,一直练习prep数据整理清洗,越来越感到tableau prep builder的方便,快捷。

    今天练习从https://preppindata.blogspot.com/2019/03/2019-week-4.html的案例,也是tableau public上推荐的类似MakeoverMonday的每周一练。 

    讲解 的非常详细,适合初中级别的我。

    使用正则表达式

    prep封装了几个正则表达式函数 , 例如:

     

    对提取字段非常方便。

    挑战记录 2019-9

    https://preppindata.blogspot.com/2019/04/2019-week-9.html

    解答:https://preppindata.blogspot.com/2019/04/2019-week-9-solution.html

    简介:tweet上针对商家的一款产品的各种评论。老板希望能够收集评论中有价值的词语。于是进行筛选。

    ⚠️这是英文评论的数据清洗,中文则有中文的特点。

    1拆分,原始数据只有1列,因此按照" "拆分成多列。

    2转置,把多列,转为1列。以便进行后面的清洗。

    3清洗,

    • 去掉无价值的商标词语,
    • 使用REGEXP_REPLACE( [words raw], "[^ws'’-]", " "),把非字母/数字/下划线/空格/-的其他字符转化为空格“ ”。 ⚠️s代表空格,^代表取反,w代表字母/数字/下划。
    • 过滤掉空值。
    • 清洗多余空格。

    4拆分,因为上一步使用正则表达式,比如"I'm"会->“I m”,所以要再次使用空格作为分隔符拆分。

    • 滤掉空值

    5转置,列转行。

    6left-outer join,  把另一个表"常用的250个英文单词"和这个清洗过的表关联。即通过left-outer join, 过滤掉常用词。

    挑战记录2019-10

    解答:https://preppindata.blogspot.com/2019/04/2019-week-11-solution.html

    简介:客户通过订阅/关注某公司发送个给他的邮件来购买其公司的产品。公司记录了客户订阅信息,和客献购买的价值,并分别存放到数据表中。

    要求:分析流失客户的购买价值,和订阅/再订阅客户的购买价值。

    • 数据清洗
    • 表连接
    • 聚合分析

  • 相关阅读:
    用.NET Compact Framework创建图像按钮
    .netCF中后台多线程与UI界面交互的冻结问题
    参考网站
    PPC全屏(C#)(转)
    推荐一个.net cf的开源网站
    在Windows Mobile中应用智能设备框架(Smart Device Framework)
    使用飞信框架(Remotesoft DOTNET Linker)使.net程序脱离.net框架运行
    .NET CF 能不能快一点?
    jquery中文指导:15天学会jquery]]
    .NET CF开发的源代码级优化器(C#)(Alpha)
  • 原文地址:https://www.cnblogs.com/chentianwei/p/12761730.html
Copyright © 2011-2022 走看看