zoukankan      html  css  js  c++  java
  • 倒排索引优化

    在前面一篇介绍 倒排索引 的文章中我们知道, 两个关键字的合并操作的时候复杂度是 θ(N), 如果在合并操作时遇到最极端的情况, 所扫描和比较的次数是两个列表集合的所有元素个数之和, 即是线性增长的, 这在数据量特别大的时候是很低效的. 我们还是看一下两个集合的合并操作代码示例: 

    a = [1, 2, 3, 6, 9, 11, 45, 67]
    b = [4, 6, 13, 45, 69, 98]
    
    i = j = 0
    result = []
    while i < len(a) and j < len(b):
        if a[i] == b[j]:
            result.append(a[i])
            i = i + 1
            j = j + 1
        elif a[i] < b[j]:
            i = i + 1
        else:
            j = j + 1
    
    print result
    
    # 输出
    [6, 45]
    

     如果待合并的两个倒排表数据量很大, 但是交集很少时, 会是什么情况呢?

    [1, 2, 3, 4, 5, ... 10001, 10005]
    [1, 10001, 10008]
    

    如果对这两个做合并操作, 最后的交集结果只有  [1, 10001] 2个元素, 但是却要做10001次移动和比较操作, 所以肯定有什么办法来优化这一点. 可能你已经想到了, 我们做了这么多无用比较, 是因为我们每次指针向前移动的步子太小了点, 如果我们在每次比较后向前多移动一点, 可以忽略很比无用的操作. 这就是跳表的思想.

    我们看第一个倒排表, 如果它以5000为步长前进, 进我们只需要向前查找两个即可找到我们需要的元素: 10001 . 这里写一个跳表功能的合并算法代码:

    a = range(10008)
    b = [1, 10001, 10008]
    
    i = j = 0
    result = []
    step = 100
    count = 0
    while i < len(a) and j < len(b):
        if a[i] == b[j]:
            result.append(a[i])
            i = i +1
            j = j + 1
            count = count + 1
        elif a[i] < b[j]:
            while (i + step < len(a)) and a[i+step] <= b[j]:
                i = i + step
                count = count + 1
            else:
                i = i + 1
                count = count + 1
        else:
            while (j + step < len(b)) and b[j+step] <= a[i]:
                j = j + 5000
                count = count + 1
            else:
                j = j + 1
                count = count + 1
    
    print result
    print count
    
    
    
    
    a = range(10008)
    b = [1, 10001, 10008]
    count = 0
    
    i = j = 0
    result = []
    while i < len(a) and j < len(b):
        if a[i] == b[j]:
            result.append(a[i])
            i = i + 1
            j = j + 1
            count = count + 1
        elif a[i] < b[j]:
            i = i + 1
            count = count + 1
        else:
            j = j + 1
            count = count + 1
    
    print result
    print count
    

    上面代码中故意构造了一个很大的集合 [0 ... 10007], 然后用变量count作为计数器来分析两个算法分别执行的操作次数, 可以看到采用跳表算法时(我们模拟了step=100)的计算次数是207, 而用之前的方式计算次数是10008, 可见性能提升了很多倍.

    这里有几点说明下:

    1. 这里为了简单说明跳表的思路, 全部用了数组表示倒排表, 其实真实的数据结构应该是链表结构(linked list). 这才符合磁盘存储结构. 

    2. 跳表的原始结构算法比这个复杂, 而且根据场景的不同, 跳表有不同的实现. 这里因为不是利用跳表的快速查询功能, 所以没有多级指针索引概念, 详细跳表实现查考: skip list 

  • 相关阅读:
    iOS仿UC浏览器顶部频道滚动效果
    OC中NSClassFromString()与NSStringFromClass()的用法及应用场景
    利用工具MailUtils实现邮件的发送,遇到的大坑,高能预警!!
    使用response实现文件下载注意点
    mac版MyEclipse的安装及创建web项目
    Mac系统下安装Tomcat,以及终端出现No such file or directory的错误提示解决方案
    机器学习笔记-Python简介
    解决mscordacwks.dll不一致问题
    IIS日志如何记录X-Forwarded-For
    深入理解Redis(番外)——持久化
  • 原文地址:https://www.cnblogs.com/jcli/p/3984809.html
Copyright © 2011-2022 走看看