zoukankan      html  css  js  c++  java
  • 新闻分类-数据预处理

    1.结构化数据与非结构化数据

    结构化数据,是可以表示成多行多列的形式,并且,每行( 列) 都有着具体的含义。非结构化数据,无法合理地表示为多行多列的形式,即使那样表示,每行(列)也没有具体的含义。

    2.文本数据预处理

    文本数据,是一种非结构化数据,与我们之前分析的结构化数据有所不同。因此,其预处理的步骤与方式也会与结构化数据有所差异。文本数据预处理主要包含:

      ◆缺失值处理
      ◆重复值处理
      ◆文本内容洁洗
      ◆分词
      ◆停用词处理

    2.1 缺失值处理

    content字段存在缺失值,根据实际情况选择用headline字段对应值填充并检查填充后结果。

    2.2重复值处理

    查找重复值并删除

    2.3文本内容清洗

    文本中存在对分析作用不大的标点符号与特殊字符,使用re库中正则匹配方法去除

    2.4分词

    分词是将连续的文本,分割成语意合理的若干词汇序列,中文分词需要用jieba库中的方法实现分词功能

    2.5停用词处理

    停用词,指的是在我们语句中大量出现,但却对语义分析没有帮助的词。对于这样的词汇,我们通常可以将其删除,这样的好处在于:可以降低存储空间消耗、可以减少计算时间消耗。 对于哪些词属于停用词,已经有统计好的停用词列表,我们直接使用就好。



  • 相关阅读:
    MySQL分库分表环境下全局ID生成方案
    机器码和字节码
    Java程序编译和运行的过程
    hive大数据倾斜总结
    图解MapReduceMapReduce整体流程图
    Java中的5种同步辅助类
    Tomcat 的三种(bio,nio.apr) 高级 Connector 运行模式
    RocketMQ与Kafka对比(18项差异)评价版
    ENode 2.0
    SecureCrt的操持连接办法
  • 原文地址:https://www.cnblogs.com/ICDTAD/p/14941325.html
Copyright © 2011-2022 走看看