zoukankan      html  css  js  c++  java
  • GPU方法做倒排压缩和交集计算

    之前一直想读这篇,今天读了一下,颇有收获:
    1.对文档按相似term聚类之后,delta较小,能够提高压缩率(similarity graph)
    1.GPU一般能够有几百个核,有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢
    2.有序数组上的搜索算法除了binary search还有interplation search(插值搜索),平均复杂度是O(loglogn),但memory access是binary search的三倍,一般不使用
    3.一般到排链基本都符合线性增长趋势,能够相应直线的点。取范围查找能够降低binary search的范围,提升效率(LR Algorithm)
    4.或使用hash表,将一定范围内的docId放在一个bucket中,哈希函数简单、哈希表在shared memory中,尽管有些内存的overhead,但效率很高,快于LR(HS Algorithm)
    5.由于一般倒排表是线性增长的,使用Linear Regression Compression,能够非常好压缩(但压缩比仅仅有二点几,不知道和group variant比怎么样),可是具有不保存delta的优势。在GPU上能够直接应用binary search,仅仅是每次须要浮点数计算.
    Efficent Parallel Lists Intersection and Index Compression Algorithms using Graphics Processing Units:
    http://www.vldb.org/pvldb/vol4/p470-ao.pdf
  • 相关阅读:
    linux shell 脚本30分钟教程
    ubuntu nginx+mysql+php 服务器环境自动配置脚本
    前端开发中常用工具函数总结
    经常逛的技术网站
    简单好用的在线思维导图工具
    在线短信接收
    一些图片站
    常用CSS媒体查询
    Dart Language samples
    IDEA 快捷键
  • 原文地址:https://www.cnblogs.com/yutingliuyl/p/6929885.html
Copyright © 2011-2022 走看看