Faiss教程：GPU - 走看看

zoukankan html css js c++ java

Faiss教程：GPU
Fassi通过CUDA支持GPU，要求3.5以上算力，float16要求CUDA7.5+

通过index_gpu_to_cpu可以将索引从GPU复制到CPU，index_cpu_to_gpu 和 index_cpu_to_gpu_multiple可以从CPU复制到GPU，并支持GpuClonerOptions来调整GPU存储对象的方式。

GpuIndexFlat, GpuIndexIVFFlat 和 GpuIndexIVFPQ分别是IndexFlat, IndexIVFFlat 和 IndexIVFPQ的GPU实现。它们除了算法需要的参数，还需要一个资源对象GpuResources，来避免无效的数据交互。

GPU下的限制：
- 都所有索引 k 和nprobe 必须小于1024
- GpuIndexIVFPQ，每个向量允许字节数：1, 2, 3, 4, 8, 12, 16, 20, 24, 28, 32, 48, 56, 64 和 96。超过56，可以使用 float16 IVFPQ 模式。
- GpuIndexIVFPQ的预计算表占用显存较大，如果有cudaMalloc错误，禁止预计算表
- indices_options = INDICES_CPU，设置倒排文件可以放在CPU
- StandardGpuResources默认使用18%的GPU显存，并动态调整
- add和search最好再batch的形式进行，见示例
- I/O操作不支持GPU
benchs/bench_gpu_sift1m.py 下是Python的GPU使用示例

使用多卡
可以复制数据到多个GPU，分开查询IndexProxy；也可以通过IndexShards分割数据到多个GPU。

GPU在单卡下是CPU的5-10倍，多卡和单卡相比基本是线性的提升：8个卡可以提升6-7倍。推荐支持batch查询，且当最近邻k值很大时性能也会受影响。
查看全文

相关阅读:
Android Studio AVD和SDK Manager灰色不能点击的问题。
回溯：最佳调度问题
 回溯：八皇后问题（蒟蒻）
usaco1.4.3等差数列
 单调队列练习题(oj p1157 p1158 p1159)
OJP1147括号匹配加强版(栈)与P1153乱头发节（单调栈）
NOIP2017游记......
火柴棒等式c++
潜伏者(noip09年t1)解题报告 C++
2016noipday1t1玩具迷题结题报告

原文地址：https://www.cnblogs.com/houkai/p/9316176.html

Copyright © 2011-2022 走看看