zoukankan      html  css  js  c++  java
  • 用R去做文本处理

    • 数据说明

    这是一份爬好的数据,data.frame格式。包括一些招聘信息,具体的列名和含义如下所示:

    • 职位名称(occ_name)清洗

    • 预览

    • 清洗策略

    1. 需要去除无关的信息,比如符号以及数字信息
    • 实现

    z <- read.csv('zhaopin.csv')
    z$occ_name <- gsub('[^\u4E00-\u9FA5]','',z$occ_name)
    • 工资(salary)清洗

    • 预览

    • 清洗策略

    1. 去除除了数字以外的其他符号
    2. 能够输出工资的区间的,可能需要分列
    • 实现

    z$salary <- gsub('[^0-9-]','',z$salary)
    library(tidyr)
    z <- separate(data = z,col = salary,into = c('salary_L','salary_H'),sep = '-')
    z$salary_L <- as.numeric(z$salary_L)
    z$salary_H <- as.numeric(z$salary_H)
    • 招募人数

    • 预览

    • 清洗策略

    1. 保留数字
    • 实现

    z$recruiting_num <- as.numeric(gsub('[^0-9]','',z$recruiting_num))
    • 岗位信息(occ_position)清洗

    • 预览

    • 清洗策略

    1. 斜杠线去除
    2. 保留中文
    • 实现

    z$occ_position <- gsub('[^\u4E00-\u9FA5]','',z$occ_position)
    • 岗位需求(occ_descip)清洗

    • 预览

    • 清洗策略

    1. 去除空格
    2. 去除制表符,换行符等
    • 实现

    z$occ_descrip <- gsub('[[:cntrl:] [:space:]]','',z$occ_descrip)
    • 公司地址(company_address)清洗

    • 预览

    • 清洗策略

    1. 去除空格
    2. 去除换行符
    • 实现

    z$company_address <- gsub('[[:cntrl:] [:space:]]','',z$company_address)
    • 清洗结果展示

  • 相关阅读:
    社群电商
    文字超出部分省略号显示······
    jq监听页面的滚动事件,
    input 更改 pleaseholder 的字体样式
    20161213 scrapy安装
    map按照value排序的方法
    Qt跨线程信号和槽的连接
    C++ map指针的使用
    Python 高级进阶
    [转]解读C指针(5)——笔试题解析
  • 原文地址:https://www.cnblogs.com/karlpearson/p/6171441.html
Copyright © 2011-2022 走看看