zoukankan      html  css  js  c++  java
  • 《R实战》读书笔记二

    第一章 R简单介绍

    本章概要

    1安装R

    2理解R语言

    3执行R程序

    本章所介绍的内容概括例如以下。

    一个典型的数据分析步骤如图1所看到的。

    图1:典型数据分析步骤

    简而言之,现今的数据分析要求我们从多种数据源中获取数据、数据合并、标注、清洗和分析。而且把分析的结果进行展示,形成报告或者系统。辅助决策。R可以满足现今数据分析的要求。

    为什么用R?

    R是一个适合统计分析和画图的环境与语言。它是开源、免费的。获得世界范围社区支持。

    统计分析和画图工具已经非常多了。比如:SPSS。SAS。Excel,Stata和Minitab等。为什么还要用R呢?R的诸多特性,能够回答这个问题。

    1)R是免费的,大多数统计工具都是商业化的,即要花钱。

    2)R是一个功能强大全面的统计分析平台。一个典型的数据分析过程都能够用R来完毕。

    3)R具有强大的画图能力。

    4)R是一个可以进行交互式数据分析和探索的平台。

    5)R是一个以easy且直观的方式编写统计方法的无与伦比的平台。

    6)R实现了非常多高级统计方法。

    7)R能够在多个系统上执行。

    8)R对于不想编程的人,提供GUI,实现R所能做的事情。

    获得和安装R

    从网址http://cran.r-project.org获得R安装程序。

    R工作

    R是一个有大写和小写之分的解释型语言。你能够在命令提示符(>)每次输入一条命令或者在一个源文件里写好全部命令集。

    R的赋值符号是”<-“。

    > x <- rnorm(5)  # 向量x包括5个服从标准正态分布的随机数

    R在Windows系统的GUI如图2所看到的。

    图2:Windows系统下GUI

    R实例一,数据集为10个婴儿年龄(单位:月)和体重(单位:千克)。

    程序清单例如以下:

    > Age <- c(1, 3, 5, 2, 11, 9, 3, 9, 12, 3)

    > Weight <- c(4.4, 5.3, 7.2, 5.2, 8.5, 7.3, 6.0, 10.4, 10.2, 6.1)

    > mean(Weight)

    [1] 7.06

    > sd(Weight)

    [1] 2.077498

    > cor(Age, Weight)

    [1] 0.9075655

    > plot(Age, Weight)

    关于Age与Weight的散点图如图3所看到的。

    图3:10个婴儿的Age-Weight散点图

    退出界面,运行例如以下函数。

    > q()

    R帮助系统非常强大,通过帮助能够获得R中已安装包的函数的细节、參考和实例。R 中获得帮助的方法。

    方法一:help.start()

    方法二:help("foo")或者?foo

    方法三:help.search("foo")或者??foo

    方法四:example("foo")

    方法五:RSiteSearch("foo")

    方法六:apropos("foo",mode="function")

    方法七:data()

    方法八:vignette()

    方法九:vignette("foo")

    R 工作空间是R当前工作环境和用户定义的全部对象。

    (向量、列表、数组、矩阵、数据框 和函数等)

    管理R空间的一些函数。

    函数一:getwd()

    函数二:setwd("mydirectory")

    函数三:list()

    函数四:rm(objectname)

    函数五:help(options)

    函数六:options()

    函数七:history(#)

    函数八:savehistory("myfile")

    函数九:loadhistory("myfile")

    函数十:save.image("myfile")

    函数十一:load("myfile")

    函数十二:save(objectlist, file="myfile")

    R实例二,数据集20个服从标准均匀分布的随机数

    > setwd("E://myproject")

    >options()

    >options(digits=3)

    >x <-  runif(20)

    >summary(x)

    >hist(x)

    >savehistory(x)

    >save.image()

    >q()

    R脚本输入方法,即source("myscript.R")

    文本输出方法。即sink("myfilename")

    图形输出方法,即pdf("xxx.pdf")或者png("xxx.png")或者jpeg("xxx.jpg")或者bmp("xxx.bmp")等。

    R包

    R功能之所以强大,原因之中的一个就是具有许多的功能扩展包。R包下载地址例如以下:

    http://cran.r-project.org/web/packages/

    为什么要用R包。

    R包是R函数、数据,可编译代码的聚合。

    .libPaths()  #显示包安装路径

    library() # 查看已安装的包

    search() #告知那些包已装载和能够使用

    R软件安装完成后,自带包(标准包)有base。datasets,utils。grDevices。graphics。stats和methods。

    安装包方法,即 install.packages("packagename")

    更新包方法。即update.packages()

    了解已安装包的具体信息方法,即installed.packages()

    载入包(前提是该包已经安装)的方法,即library("packagename")

    对新安装包的学习和认知方法,即help(package="packagename")

    批处理

    适合反复性工作

    形式:R CMD BATCH options  infile  outfile

    结果重用

    f分析的结果能够保存。并作为下一次的输入。

    R实例三。数据集R自带的mtcars。

    程序清单:

    >lmfit <- lm(mpg ~ wt, data=mtcars)

    >summary(lmfit)

    >plot(lmfit)

    >predict(lmfit, mynewdata)

    对待大数据集

    R所处理的一切都视为对象代之,而且是把对象载入到内存中进行操作和处理。

    因而,R能处理多大的数据集取决于作业环境的内存容量。

    使用R进行数据分析,须要考虑两点,一是数据的大小。二是统计分析的方法。

    R可以处理GB级到TB级数据。

    但特殊过程特殊处理。

    R实例

    秉承”学以致用、活学活用“的原则。以一个综合实例融合上述内容。

    R综合实例,程序清单例如以下。

    >help.start()

    >library()

    >install.package("vcd")

    >help(package="vcd")

    >library(vcd)

    > help(Arthritis)

    > Arthritis

    > example(Arthritis)

    >q()

    执行效果如图4所看到的。

    总结

    1 )R的优势。

    2 )因R非常适合理解数据,吸引非常多用户群(学生、研究人员、统计学者、数据分析师等)。

    3​)RGUI、R安装、R包、R程序、R帮助、R结果保存、R批处理等内容。

    Resoure:

    1.http://www.wangluqing.com/2014/06/r-in-action-note2/

    2.《R in action》第一部分的第一章

  • 相关阅读:
    HDFS的工作流程分析
    linux文本分析利器awk
    二叉树遍历
    tomcat 工作原理简析
    徐汉彬:Web系统大规模并发——电商秒杀与抢购
    牛人博客 列表
    消息队列 概念 配合SpringBoot使用Demo
    Redis 实例排除步骤
    Java分布式 一些概念理解
    消息成功失败回调demo
  • 原文地址:https://www.cnblogs.com/gccbuaa/p/7039302.html
Copyright © 2011-2022 走看看