zoukankan      html  css  js  c++  java
  • R语言处理大规模数据集的编程要点

    1.提高程序效率,保证执行速度

    (1)尽量使用向量化运算

    (2)尽量使用矩阵,必要时才使用数据框

    (3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL

    (4)将外部数据导入矩阵时,使用scan函数

    (5)删除临时对象和不再用的对象

    (6)用ls.objects()列出工作区对象占用的内存大小

    2.把数据存在外部

    (1)ff包:将数据保存在硬盘,操作起来跟在内存中一样

    (2)bigmemory包:支持大规模矩阵的创建

    (3)filehash:keyvalue数据库,value在硬盘中

    (4)ncdf,ncdf4:读取cndf格式

    (5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

    3.使用大规模数据专门的统计方法包

    (1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

    (2)biganalytics提供了k-means,column statistics和一个对biglm的封装

    (3)bigtabulate提供了table,split和tapply

    (4)bigalgebra提供了高等线性代数函数

    (5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归

    (6)brobdingnag包处理大数字

    4.大型文本文档常用包

    (1)fread:data.table包,大型文本文档读放

    (2)read.table.ffdf,read.csv.ffdf:ff包

    (3)read.big.matrix:bigmemory,无法在windows下

    (4)read.csv.sql:sqldf包

    (5)read.table

  • 相关阅读:
    python---RabbitMQ
    Apicloud学习第四天
    Apicloud学习第三天——获取云数据库的数据方法
    APICloud学习第二天——操作云数据库
    font-spider问题【已解决】
    Apicloud学习第一天
    sass补充(2019-3-9)
    sublime中编译的sass如何改变css输出风格?【这里有答案】
    SEO总结
    Sass学习第一天
  • 原文地址:https://www.cnblogs.com/MarsMercury/p/4935858.html
Copyright © 2011-2022 走看看