Distributed R - 走看看

zoukankan html css js c++ java

Distributed R
R语言的分布式目前有这几个产品：

（A）RHadoop：对hadoop族系的产品，其中提供了以下的组件

A.1 rhdfs 浏览读取增加修改hdfs上面的文件数据；

A.2 rhbase 浏览读取增加修改hbase中的文件数据；

A.3 plyrmr 用mr方式在hadoop中提供类似于plyr/reshape2这样的数据操作的功能；需要安装到每个节点上面；

A.4 rmr2 用mr方式运行R语言，需要每个节点进行安装，查看例子 https://github.com/jseidman/hadoop-R/blob/master/airline/src/deptdelay_by_month/R/rmr/deptdelay-rmr.R

好了，至此可以看出，RHadoop提供了一套基于hadoop和R语言对接的联通功能，但也无法全面兼容已经存在的各种R语言的包，现存的各种算法不经过修改也无法可以在hadoop上面运行；

（2）sparkR：基于 parallel DataFrame abstraction

不同于hadoop，sparkR DataFrame 抽象是类似于R中的表数据的结构，但是存储在云端环境里面。sparkR得益于RDD的设计，在DF层面支持分布式的数据的处理，同样的是需要用户自己迁移现有的算法库；sparkR能够直接使用类似于原生R语法进行操作，例如：
# Create a new DataFrame that contains "young users" only young = users.filter(users.age < 21) # Alternatively, using Pandas-like syntax young = users[users.age < 21] # Increment everybody's age by 1 young.select(young.name, young.age + 1) # Count the number of young users by gender young.groupBy("gender").count() # Join young users with another DataFrame called logs young.join(logs, logs.userId == users.userId, "left_outer")
　　具体https://databricks.com/blog/2015/06/09/announcing-sparkr-r-on-spark.html

官方文档http://people.apache.org/~pwendell/spark-releases/latest/sparkr.html#sparkr-dataframes

（3）Microsoft R：整合了开源R和hadoop R
查看全文

相关阅读:
[Java] 使用@SelectProvider注解实现多表关联查询（全注解，不使用不配置xml)
c#winform线程间操作UI的五种方法
 C#调用Excel,拷贝图表到其他Excel文档中
 VisualSvn破解、VS2017以上版本的VisualSvn破解
 汉字数据库，汉字大全，JSON格式汉字数据，收录16159个汉字
 golang Logrus简易使用教程
 excel操作-基础篇
 02-PyQt5程序基本结构分析
 QObject信号的操作
 基于webGL三维停车场，可视化管理Demo

原文地址：https://www.cnblogs.com/laodageblog/p/5830658.html