R语言处理大规模数据集的编程要点 - 走看看

zoukankan html css js c++ java

R语言处理大规模数据集的编程要点

1.提高程序效率，保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵，必要时才使用数据框

(3)使用read.table时，尽量显式设定colClasses和nrows，设定comment.char=""，把不需要的列设置为NULL

(4)将外部数据导入矩阵时，使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包：将数据保存在硬盘，操作起来跟在内存中一样

(2)bigmemory包：支持大规模矩阵的创建

(3)filehash：keyvalue数据库，value在硬盘中

(4)ncdf,ncdf4：读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归，lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread：data.table包，大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf：ff包

(3)read.big.matrix：bigmemory，无法在windows下

(4)read.csv.sql：sqldf包

(5)read.table

查看全文

相关阅读:
Springboot~多个数据源时自定义datasource的bean
springboot~aspose操作word模板实现导出功能
 spring-security-jwt的总结与实现
 mybatis+maven自动生成代码框架
 chrome 插件 vimium 像操作vim一样的操作浏览器
 递归计算过程和迭代计算过程
 找工作--Java相关
 《Linux程序设计》--读书笔记---第十三章进程间通信：管道
 poj 1474 Video Surveillance
动态包含与静态包含的区别

原文地址：https://www.cnblogs.com/MarsMercury/p/4935858.html

Copyright © 2011-2022 走看看