zoukankan      html  css  js  c++  java
  • 如何使用数据质量和模糊匹配


    什么是数据质量(Data Profiling)?

    数据质量是PowerBI 10月更新的新功能,我们可以通过他查看数据的整体情况和结构,能反映出数据的质量好坏,目前只能在10月Desktop版本中可以看到。而且一次只能预览到1000行的数据质量,相信PowerBI很快将预览到更多的数据质量。

    开启数据质量预览功能

    数据质量是(2018年10月)的预览功能。在选项设置中打开它。

     

    打开选项,点击预览功能,再勾选启用列分析,点击确认后,我们需要重启一下PowerBIDesktop,这样他的功能就开始生效了。 

    加载和配置一些数据

    我们通过Excel快速加载一些数据,然后选择编辑启动Power Query。

     

    进入PowerQuery,我们可以看到标题底部多了一条横线,这是数据质量分析第一个功能。红色表示错误,灰色表示空白,绿色表示正常。

    接下来我们要做的是,进入视图菜单并打开列分发,如下图所示,我们可以到数据质量分析的条形图。这里统计着数据的重复性和唯一性,这是数据质量的第二个功能。

    再接着,我们打开列质量,我们可以看到下图,新的一横。里面有提示有效的、错误的、空的数据质量占比。这是数据质量分析的第三个功能。

    通过上面3个功能,我们可以快速的见解到我们的数据质量是不是很健康。可以帮助我们改善我的模型健康程度。

    模糊合并(Fuzzy Matching)

    模糊合并是一种将两个表连接在一起的方法,但不是在完全匹配条件上,而是在相似性阈值上做匹配。

    有时候我们会遇到这样的问题,比如下图,我们的部门名称,有时候因为录入的问题导致不一致,但是这些数据又是有效的,单独通过部门匹配无法全部匹配出来。下面我们可以通过模糊合并,把这些有效数据合并出来。

     

    同样的,我们需要先打开设置里面的选择,然后点击预览功能,勾选启用模糊合并,再重启 PowerBI Desktop 这样我们的功能才能生效。

    然后我们导入一下数据,启动Power Query.

    然后我们在开始里面。找到合并查询

    打开我们的合并查询,现在我们看到我们的销售表,我们看到了部门,下面我们选择我们的部门表。

     

    加载部门表后,我们选择销售部门这一列,然后再选择部门表的部门这一列。点击确认,开始匹配。

    匹配完成后,我们并没有直接看到我们想要的数据,我们需要点击列的右上角,选择展示的列名称,我们选择部门组长。

    确认后,我们可以看到以下图。

    为了更直观看对比,我们把组长的部门也带出来,我们看到只有赵豆组长的部门能匹配到,其他匹配为空。

    接下里,我们尝试模糊匹配看看。同样的操作,打开合并查询,选择对应的部门列,接下里我们要勾选使用模糊匹配。然后阀值设置0.9。

     

    确认后,我们再设置好列,现在我们对比看看。部门跟部门都匹配对上了,假如这些都是有效的数值,那么你可以通过模糊合并把这些数据合并起来。

    选项

    可接受的价值

    描述

    阈值

    0.00~1.00

    如果两个文本值的相似度大于阈值,则将其视为成功匹配。值1.00表示完全匹配。

    忽略大小写

    真假

    如果你希望相似度算法无论大小写字母是否有效,请选择此选项。

    忽略空间

    真假

    如果你希望相似度算法无论文本中的空格数如何都能工作,请选择此选项。

    最大匹配数

    数字正值0~2147483647

    可以与一个值匹配的行数。

    转型表

    这就像一个映射表,让我们稍后在这篇文章中查看它。它为你提供了使用自己的映射表的选项。该表应至少有两列“To”和“From”。


     1.Power BI免费下载:http://www.yeacer.com/

        Microsoft Power BI Desktop中文最新版:下载地址

    2.欢迎加入的Power BI技术群,目前正在学习阶段,有兴趣的朋友可以一起学习讨论。 

       Power Data技术交流群:702966126 (验证注明:博客园Power BI) 

       更多精彩内容请关注微信公众号:悦策PowerBI          


    如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!欢迎各位转载,作者博客:https://www.cnblogs.com/yeacer/ 
    Fancy
  • 相关阅读:
    Django rest_framework实现增删改查接口
    文件的三种打开方式知识点回顾
    Django中基表的创建、外键字段属性简介、脏数据概念、子序列化
    drf序列化与反序列化作业1
    rest_framework序列化与反序列化1
    APIview的请求生命周期源码分析
    sql
    正则上面的一个坑
    多线程与多进程---方法对比与使用
    网络编程----踩坑篇
  • 原文地址:https://www.cnblogs.com/yeacer/p/9910435.html
Copyright © 2011-2022 走看看