本文目的
最近在使用R做一些文本聚类方面的计算,感觉R还是很好用的,特别是R有很多计算扩展,可以方便的运用这些扩展和数据进行试验。所以,在此记录一些使用心得,作为备忘。
R是什么
R是一个开源软件,起初主要用于数学统计计算。通过R脚本与R环境交互,脚本中内置了许多统计相关的函数,使用十分方便。但是,最近几年R被广泛使用到了数据挖掘领域,据 Rexer Analytics 5th Annual Data Miner Survey - 2011调查显示,有47%的数据挖掘从业人员使用R作为主要工具。
R有一个活跃的社区CRAN(The Comprehensive R Archive Network),此社区提供了大概2000个R扩展,文档和不同平台(Linux, Mac和Windwos)的版本。即使没有找到符合要求的扩展,也可以根据R的标准,编写自己的扩展。R提供API接口,可以在程序中使用R相关的模块。
总而言之,R非常灵活。
安装R(windows)
点击这里,下载R的windows版本。双击安装文件,然后一路OK,就可以成功安装R。安装好后的目录结构如下:
安装R扩展(windows)
R有许多扩展,安装也很方便,R的安装目录下面有个library,此目录就是存放R扩展的目录,随R安装时,默认会安装一些扩展。
如果需要添加新的扩展,直接去CRAN下载相关平台的扩展,将解压后的文件直接拷到library目录下即可,此方法是手动安装,主要适用于网络受限制的情况,比如在公司内网,端口被防火墙阻挡了,无法连接到CRAN货相关镜像。但是此方法有个弊端:需要自己手动去下载所有依赖扩展,当依赖较多时,就比较麻烦。比较方便的方法是直接通过R主菜单上的“程序包->安装程序包”自动安装扩展,系统会自动下载相关依赖,很方便。
R自助小结
R有许多函数,忘记函数使用方法和参数很正常,关键是要知道如何找到相关资料。可以在R命令行中输入“hlep(function_name)”的方式,查看任何函数的详细说明。当然,更多帮助,可以通过R主菜单的帮助下获得,如下图
这里面的资料 R Language Definiton 详细的描述了R的基本语法。当然使用google或bing等E文搜素引擎寻找R相关资料也会事半功倍。
参考资料
- R Tutorial http://www.cyclismo.org/tutorial/R/input.html
- Insights From R Users http://www.rexeranalytics.com/DMSurvey2011_R-Comments.html
- 2011 Data Miner Survey http://www.rexeranalytics.com/Data-Miner-Survey-Results-2011.html