英伟达开源GPU加速库RAPIDS
RAPIDS是一个支持在GPU上进行端到端数据科学和分析流程的包,在后端CUDA的支持下利用简单的python接口供数据科学家和工程师使用。
Rapids主要致力于通用的数据预处理阶段,包含了对于DataFrame的API。同时也提供了端到端的机器学习加速技术。支持多节点、多GPU部署,可以有效提高超大数据集的处理效率。
下面是一张官方提供的加速比较:
1.框架和接口
- Apache Arrow:内存中的数据结构,高效灵活;
- cuDF:DataFrame操作库,包含对加载、过滤、数据操作等过程的加速,基于cuda内核加速的接口与pandas无缝衔接;
- cuML:GPU加速的机器学习库,包括scikit-learn中的所有机器学习算法;
- cuGRAPH:图分析库;
- Deep Learning:深度学习接口,可以将数据保存在ApacheArrow中,无缝衔接其他深度学习框架;
- Visualization:可视化包,GPU加持更快更清晰。
2.安装
目前官方提供了基于docker的安装:
需要系统满足一下条件:
- GPU support
NVIDIA Pascal™ architecture or better- CUDA support
9.2 (tags below for each version)
10.0 (tags below for each version)- OS support
Ubuntu 16.04 LTS (tested and confirmed working)
Ubuntu 18.04 LTS (tested and confirmed working)- Docker support
Docker CE v18+ - apt for Ubuntu 16.04 doesn’t include v18+ by default
nvidia-docker v2+
#获取容器
#dockerhun
#https://hub.docker.com/r/rapidsai/rapidsai/
cat /rapids/notebooks/container-version
Container Release : 0.14a
Build Date : Thu Sep 13 15:31:44 PDT 2018
CUDA Version : 9.2
Python Version : 3.5
安装RAPIDS
docker pull rapidsai/rapidsai:TAG
#TAG:
#cuda9.2_py3.5
#cuda9.1_py3.5
#cuda9.0_py3.5
运行
#启动jupyterLab
docker run --runtime=nvidia -v
#或者开发模式
docker run --runtime=nvidia -it
同时容器中还有cuDF的虚拟python环境
source activate gdf
ref:
site:http://rapids.ai/
github: https://github.com/RAPIDSai
cheatsheet:https://rapids.ai/documentation.html
intro:https://medium.com/rapids-ai/rapids-accelerates-data-science-end-to-end-afda1973b65d