R与SAS、SPSS的比较R语言R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。S-PLUS的使用手册,只要经过不多的修改就能成为 R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。但是请不要忘了:R is free。 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言的(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在“语言上计算”(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。R的主要网站是 http://www.r-project.org。在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得(http://cran.r-project.org)。 官方网站:http://www.r-project.org/ 以下简述R FOR WINDOWS的安装和使用: 在网址:http://cran.r-project.org 下可以找到R的各个版本的安装程序和源代码。点击进入:Windows (95 and later),再点击:base,下载SetupR.exe,约18兆,此便是R FOR WINDOWS的安装程序。双击SetupR.exe,按照提示一步步安装即可。 安装完成后,程序会创建R程序组并在桌面上创建R主程序的快捷方式(也可以在安装过程中选择不要创建)。通过快捷方式运行R,便可调出R的主窗口(如下图 1-1)。 类似于许多以编程方式为主要工作方式的软件,R的界面简单而朴素,只有不多的几个菜单和快捷按钮。快捷按钮下面的窗口便是命令输入窗口,它也是部分运算结果的输出窗口,有些运算结果则会输出在新建的窗口中。 主窗口上方的一些文字是刚运行R时出现的一些说明和指引。文字下的:> 符号便是R的命令提示符,在其后可输出命令;>后的矩形是光标。R一般是采用交互方式工作的,在命令提示符后输入命令,回车后便会输出结果。 在R朴素的界面下,是丰富而复杂的运算功能。在以后的叙述中,我们将一起去探讨R的强大功能。 1、某好友在参加某社会学领域大型项目的时候,找我去冒充专家,为他向招标单位说明,R与SAS、SPSS相比较的优势何在。结果到了现场,压根不需要我说,对方已经非常认可R了,看来R的优势在社会学领域深入人心。 2、然而,直到今天,国内心理学背景的人仍较少接触到R。如同国内绝大多是心理学背景出身的人一样,我们最早接触的都是盗版的SPSS,所以,就一直这么盗版的SPSS、AMOS一路用下去。而在国际一流测量学刊上,用R来说明算法的论文已是层出不穷。 3、为什么偏偏是R?让我们看看,Muenchen等人所总结的表格吧,表格原文出处在此:Comparison of SAS and SPSS Products with R Packages and Functions 4、我将表格简单翻译如下,如表格所述,R与SPSS、SAS相比较,拥有非常突出的优势: 1)产品线齐全。在功能与产品线齐全上已经远远超出SPSS,而与SAS不相上下。有些R的包,比如基因分析常用的Bioconductor 在在线基因数据库连接等众多功能上甚至已经远远超出商业软件。 2)免费。请注意,标记为TM或者®符号的软件均需要在SPSS、SAS的基础模块基础之上另行购买,费用往往在千元美元以上。而R的一切功能均是免费。 3)开放。由于R本身是一个统计语言环境,再新的统计模型也很快能实现,所以在结构方程模型、项目反应理论、认知诊断等众多心理测量所使用的功能上,没有现成的统计软件包,使用R则完全可以自己编写算法。同样,由于R是完全开源,我们可以很快地基于研究者已经开发出的算法编写更适合自己情况的算法。
表:R与SAS、SPSS之比较 主题 | SAS产品线 | SPSS产品线 | R语言相关包 | 高级模块 | SAS/STAT® | SPSS Advanced Models™ | stat, MASS及众多扩展包 | 基础模块 | SAS® | SPSS Base™ | R | 联合分析 | SAS/STAT®: Transreg | SPSS Conjoint™ | homals, psychoR , bayesm | 对应分析 | SAS/STAT®: Corresp | SPSS Categories™ | homals, MASS, FactoMineR ade4, PTAk, cocorresp, vegan, made4, PsychoR | 自定义表格 | SAS Base® Report、SQL, Tabulate | SPSS Custom Tables™ | reshape | 数据接口 | SAS/ACCESS® | SPSS Data Access Pack™ | DBI, foreign, RODBC | 数据挖掘 | Enterprise Miner™ | Clementine® | rattle, arules, FactoMineR | 数据校验 | Various procedures | Various procedures, SPSS Data Preparation™ | dprep, various functions | Exact Tests | SAS/STAT®: various | SPSS Exact Tests™ | coin, elrm, exactLoglinTest, exactmaxsel, exactRankTests,及其他许多包 | 基因分析 | SAS/Genetics®, SAS/Microarray® Solution®, JMP Genomics® | 无 | Bioconductor | GIS | SAS/GIS®, SAS/Graph® | SPSS Maps™ | maps, mapdata, mapproj, GRASS via spgrass6, RColorBrewer及其他包的部分功能 | 交互图 | Enterprise Guide® | SPSS Base™ | JGR, R Commander, pmg, Sciviews | | SAS/INSIGHT® | 无 | GGobi via rggobi iPlots, Mondrian via Rserve | 统计图 | SAS/GRAPH® | SPSS Base™ | ggplot, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, lot, geneplotter, Rgraphics | 分析向导 | SAS/LAB® | 无 | 无 | 矩阵数学 | SAS/IML®, SAS/IML | SPSS Matrix™ | R, matlab, Matrix, sparseM | 缺省值分析 | SAS/STAT®: MI | SPSS Missing Values Analysis™ | aregImpute (Hmisc), EMV, fit.mult.impute (Design), mice, mitools, mvnmle | 统筹研究 | SAS/OR® | 无 | glpk, linprog, LowRankQP, TSP | 统计效力检验 | SAS® Power and Sample Size Application, SAS/STAT: Power, GLM Power | SamplePower™ | asypow, powerpkg, pwr, MBESS | 品质控制 | SAS/QC® | SPSS Base™ | qcc, spc | 回归模型 | SAS/BASE® | SPSS Regression Models™ | R, Hmisc, Design, lasso, VGAM, pda | 抽样及调查 | SAS/STAT®: surveymeans,等 | SPSS Complex Samples™ | pps, sampfling, sampling, spsurvey, survey | 结构方程模型 | SAS/STAT®: Calis | Amos™ | sem | 文本分析 | Text Miner | SPSS Text Analysis for Surveys™, Text Miner for Clementine® | Rstem, lsa, tm | 时间序列 | SAS/ETS® | SPSS Trends™ Expert Modeler | 大量的包可完成 | 时间序列分析预测 | SAS Forecast Studio® | SPSS Trends, DecisionTime/WhatIf™ | 无 | 决策树 | Enterprise Miner™ | SPSS Classification Trees™, AnswerTree™ | ada, adabag, BayesTree, boost, GAMboost, gbev, gbm, maptree, mboost, mvpart, party, pinktoe, quantregForest, rpart, rpart.permutation, randomForest, randomForests, tree |
This entry was posted on 星期五, 04月 4th, 2008 at 1:57 am and is filed under 5-技术-R语言与相关包. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.
|