用R去做文本处理 - 走看看

zoukankan html css js c++ java

用R去做文本处理
- 数据说明
这是一份爬好的数据，data.frame格式。包括一些招聘信息，具体的列名和含义如下所示：
- 职位名称（occ_name）清洗
- 预览
- 清洗策略
1. 需要去除无关的信息，比如符号以及数字信息
- 实现
z <- read.csv('zhaopin.csv') z$occ_name <- gsub('[^\u4E00-\u9FA5]','',z$occ_name)
- 工资（salary）清洗
- 预览
- 清洗策略
1. 去除除了数字以外的其他符号
2. 能够输出工资的区间的，可能需要分列
- 实现
z$salary <- gsub('[^0-9-]','',z$salary) library(tidyr) z <- separate(data = z,col = salary,into = c('salary_L','salary_H'),sep = '-') z$salary_L <- as.numeric(z$salary_L) z$salary_H <- as.numeric(z$salary_H)
- 招募人数
- 预览
- 清洗策略
1. 保留数字
- 实现
z$recruiting_num <- as.numeric(gsub('[^0-9]','',z$recruiting_num))
- 岗位信息（occ_position）清洗
- 预览
- 清洗策略
1. 斜杠线去除
2. 保留中文
- 实现
z$occ_position <- gsub('[^\u4E00-\u9FA5]','',z$occ_position)
- 岗位需求（occ_descip）清洗
- 预览
- 清洗策略
1. 去除空格
2. 去除制表符，换行符等
- 实现
z$occ_descrip <- gsub('[[:cntrl:] [:space:]]','',z$occ_descrip)
- 公司地址（company_address）清洗
- 预览
- 清洗策略
1. 去除空格
2. 去除换行符
- 实现
z$company_address <- gsub('[[:cntrl:] [:space:]]','',z$company_address)
- 清洗结果展示
查看全文

相关阅读:
方法和参数
 【转】priority_queue优先队列
 【转】主席树学习
 【转】树链剖分
 【转】线段树完全版~by NotOnlySuccess
【转】树状数组
 【转】最大流EK算法
 【转】POJ题目分类推荐（很好很有层次感）
【转】原根
 【转】Polya定理

原文地址：https://www.cnblogs.com/karlpearson/p/6171441.html

Copyright © 2011-2022 走看看