zoukankan      html  css  js  c++  java
  • SAP Cloud for Customer客户主数据的重复检查-Levenshtein算法

    SAP C4C的客户主数据创建时的重复检查,基于底层HANA数据库的模糊查找功能,根据扫描数据库中已有的数据检测出当前正在创建的客户主数据是否和数据库中记录有重复。

    在系统里开启重复检查的配置:

    在此处配置主数据模型上每个字段对重复性检查结果共享的权值:

    要理解权值的作用,就必须先理解C4C客户主数据重复性检查的算法Levenshtein algorithm。这个算法以开发者Vladimir Levenshtein命名,通过计算Levenshtein(莱文斯坦)距离来衡量两个字符串的相似度。

    看个具体例子。

    假设数据库里有一条主数据记录:

    Name = Carl,

    Email = jerry@sap.com

    然后在C4C UI创建一个新的客户主数据:

    Name = Corl,

    Email = jerry@sap.com

    其中Name字段的相似度为 1 - 1/4 = 75%,而Email字段相似度为100%。

    然后在C4C里这两个字段的权值配置如下:

    Name = 30

    E-mail = 70

    按照Levenshtein algorithm的公式计算重复度:

    SIM = SQRT( (30² * 0.75² + 70² * 1²) / (30² + 70²) ) = 0.97 = 97%

    到底重复度多少的待创建客户主数据被认为是真正的重复数据呢?可以在Business Configuration里配置:

    ‘Strong – Duplicate Check for Business Partners’:85%

    ‘Medium – Duplicate Check for Business Partners’: 80%

    ‘Weak – Duplicate Check for Business Partners’: 70%

    要获取更多Jerry的原创文章,请关注公众号"汪子熙":

  • 相关阅读:
    HDU 5642 King's Order 动态规划
    HDU 5640 King's Cake GCD
    HDU 5641 King's Phone 模拟
    HDU 5299 Circles Game 博弈论 暴力
    HDU 5294 Tricks Device 网络流 最短路
    HDU 5289 Assignment rmq
    HDU 5288 OO’s Sequence 水题
    星际争霸 虚空之遗 人族5BB 操作流程
    Codeforces Beta Round #3 D. Least Cost Bracket Sequence 优先队列
    Codeforces Beta Round #3 C. Tic-tac-toe 模拟题
  • 原文地址:https://www.cnblogs.com/sap-jerry/p/9821726.html
Copyright © 2011-2022 走看看