zoukankan      html  css  js  c++  java
  • R语言处理大规模数据集的编程要点

    1.提高程序效率,保证执行速度

    (1)尽量使用向量化运算

    (2)尽量使用矩阵,必要时才使用数据框

    (3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL

    (4)将外部数据导入矩阵时,使用scan函数

    (5)删除临时对象和不再用的对象

    (6)用ls.objects()列出工作区对象占用的内存大小

    2.把数据存在外部

    (1)ff包:将数据保存在硬盘,操作起来跟在内存中一样

    (2)bigmemory包:支持大规模矩阵的创建

    (3)filehash:keyvalue数据库,value在硬盘中

    (4)ncdf,ncdf4:读取cndf格式

    (5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

    3.使用大规模数据专门的统计方法包

    (1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

    (2)biganalytics提供了k-means,column statistics和一个对biglm的封装

    (3)bigtabulate提供了table,split和tapply

    (4)bigalgebra提供了高等线性代数函数

    (5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归

    (6)brobdingnag包处理大数字

    4.大型文本文档常用包

    (1)fread:data.table包,大型文本文档读放

    (2)read.table.ffdf,read.csv.ffdf:ff包

    (3)read.big.matrix:bigmemory,无法在windows下

    (4)read.csv.sql:sqldf包

    (5)read.table

  • 相关阅读:
    设计模式的类型
    SQL介绍(1)
    MySQL(介绍1)
    MyBatis总结(1)
    使用SQLServer Profiler侦测死锁(转)
    SQL Server 数据库中关于死锁的分析
    Delphi内嵌汇编语言BASM精要(转帖)
    Delphi项目构成之单元文件PAS
    Delphi中Interface接口的使用方法
    Delphi项目构成之项目文件DPR
  • 原文地址:https://www.cnblogs.com/MarsMercury/p/4935858.html
Copyright © 2011-2022 走看看