统计分析与R软件-chapter2-4

zoukankan html css js c++ java

统计分析与R软件-chapter2-4
2.4 因子

统计中的变量有几中重要类别：区间变量、名义变量和有序变量。区间变量取连续的数值，可以进行求和、平均值等运算。名义变量和有序变量取离散值，可以用数值代表，也可以是字符型值，其具体数值没有加减乘除的意义，不能用来计算，而只能用来分类或计数。名义变量如性别、省份、职业，有序变量如班级、名次

2.4.1 factor()函数
```
> sex<-c("M","F","M","M","F")
> sexf<- factor(sex);sexf
[1] M F M M F
Levels: F M
```
函数factor()用来把一个向量编码成为一个因子，其一般形式为：

factor(x,levels=sort(unique(x),na.last=TRUE),labels,exclude=NA,ordered=FALSE)

其中x是向量，levels是水平，可以自行指定各离散取值，不指定时由x的不同值来求得。labels可以用来指定各水平的标签，不指定时用各离散取值的对应字符串。exclude参数用来指定要转换为缺失值（NA）的元素值集合，如果指定了levels，则因子的第i个元素当它等于水平中第j个时元素值取“j”，如果它的值没有出现在levels中，则对应因子元素值取NA;ordered取值为真(TRUE)时，表示因子水平是有次序的；否则(缺省值)是无次序的
```
> sex.level<-levels(sexf);sex.level
[1] "F" "M"
> sex.tab<-table(sexf);sex.tab
sexf
F M 
2 3 
```
2.4.2 tapply()函数
```
> height<- c(174,165,180,171,160)
> tapply(height,sex,mean)
    F     M 
162.5 175.0 
```
2.4.3 gl()函数

gl()函数可以方便地产生因子，其一般用法是

gl(n,k,length=n*k,labels=1:n,ordered=FALSE)

其中n为水平数，k为重复的次数，length为结果的长度，labels是一个n维向量，表示因子水平，ordered是逻辑变量，表示是否为有序因子，缺省值为FALSE
```
> gl(3,5)
 [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
Levels: 1 2 3
> gl(3,1,15)
 [1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
Levels: 1 2 3
```
查看全文

相关阅读:
机器学习之决策树与随机森林模型
 深度学习入门篇--手把手教你用 TensorFlow 训练模型
 Android 性能测试之方向与框架篇
 机器学习：从入门到第一个模型
 5分钟教你玩转 sklearn 机器学习（上）
Hbase 技术细节笔记（上）
五年 Web 开发者 star 的 github 整理说明
 腾讯云发布第三代云服务器矩阵，开放更强计算力赋能产业智能化
 为什么要用深度学习来做个性化推荐 CTR 预估
 云 MongoDB 优化让 LBS 服务性能提升十倍

原文地址：https://www.cnblogs.com/SweetZxl/p/chapter24.html

统计分析与R软件-chapter2-4

2.4 因子

2.4.1 factor()函数

函数factor()用来把一个向量编码成为一个因子，其一般形式为：

factor(x,levels=sort(unique(x),na.last=TRUE),labels,exclude=NA,ordered=FALSE)

2.4.2 tapply()函数

2.4.3 gl()函数

gl()函数可以方便地产生因子，其一般用法是

gl(n,k,length=n*k,labels=1:n,ordered=FALSE)

其中n为水平数，k为重复的次数，length为结果的长度，labels是一个n维向量，表示因子水平，ordered是逻辑变量，表示是否为有序因子，缺省值为FALSE