zoukankan      html  css  js  c++  java
  • R语言处理大规模数据集的编程要点

    1.提高程序效率,保证执行速度

    (1)尽量使用向量化运算

    (2)尽量使用矩阵,必要时才使用数据框

    (3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL

    (4)将外部数据导入矩阵时,使用scan函数

    (5)删除临时对象和不再用的对象

    (6)用ls.objects()列出工作区对象占用的内存大小

    2.把数据存在外部

    (1)ff包:将数据保存在硬盘,操作起来跟在内存中一样

    (2)bigmemory包:支持大规模矩阵的创建

    (3)filehash:keyvalue数据库,value在硬盘中

    (4)ncdf,ncdf4:读取cndf格式

    (5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

    3.使用大规模数据专门的统计方法包

    (1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

    (2)biganalytics提供了k-means,column statistics和一个对biglm的封装

    (3)bigtabulate提供了table,split和tapply

    (4)bigalgebra提供了高等线性代数函数

    (5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归

    (6)brobdingnag包处理大数字

    4.大型文本文档常用包

    (1)fread:data.table包,大型文本文档读放

    (2)read.table.ffdf,read.csv.ffdf:ff包

    (3)read.big.matrix:bigmemory,无法在windows下

    (4)read.csv.sql:sqldf包

    (5)read.table

  • 相关阅读:
    Redis学习笔记
    RedisTemplate操作命令
    RedisTemplate操作命令
    RedisTemplate操作命令
    RedisTemplate操作命令
    将chrome储存的密码转为MarkDown表格
    使用redisson做redis分布式锁
    RocketMQ 整合SpringBoot发送事务消息
    关于java读写锁的测试
    java8 stream记录
  • 原文地址:https://www.cnblogs.com/MarsMercury/p/4935858.html
Copyright © 2011-2022 走看看