GPU方法做倒排压缩和交集计算 - 走看看

zoukankan html css js c++ java

GPU方法做倒排压缩和交集计算

之前一直想读这篇，今天读了一下，颇有收获:
1.对文档按相似term聚类之后,delta较小，能够提高压缩率(similarity graph)
1.GPU一般能够有几百个核，有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢
2.有序数组上的搜索算法除了binary search还有interplation search(插值搜索),平均复杂度是O(loglogn),但memory access是binary search的三倍，一般不使用
3.一般到排链基本都符合线性增长趋势,能够相应直线的点。取范围查找能够降低binary search的范围，提升效率(LR Algorithm)
4.或使用hash表,将一定范围内的docId放在一个bucket中，哈希函数简单、哈希表在shared memory中，尽管有些内存的overhead,但效率很高，快于LR(HS Algorithm)
5.由于一般倒排表是线性增长的,使用Linear Regression Compression,能够非常好压缩(但压缩比仅仅有二点几,不知道和group variant比怎么样),可是具有不保存delta的优势。在GPU上能够直接应用binary search,仅仅是每次须要浮点数计算.
Efficent Parallel Lists Intersection and Index Compression Algorithms using Graphics Processing Units:
http://www.vldb.org/pvldb/vol4/p470-ao.pdf

查看全文

相关阅读:
C. Tavas and Karafs 二分查找+贪心
 字符串前缀和后缀匹配
 E
网络流最经典的入门题各种网络流算法都能AC。 poj 1273 Drainage Ditches
B
Dividing 多重背包倍增DP
Doing Homework 状态压缩DP
Largest Rectangle in a Histogram 常用技巧 stack的运用
 S = A + A2 + A3 + … + Ak. （推矩阵公式+矩阵幂运算）
安卓开发：图片的显示Mode

原文地址：https://www.cnblogs.com/yutingliuyl/p/6929885.html

Copyright © 2011-2022 走看看