zoukankan      html  css  js  c++  java
  • 新闻分类-数据预处理

    1.结构化数据与非结构化数据

    结构化数据,是可以表示成多行多列的形式,并且,每行( 列) 都有着具体的含义。非结构化数据,无法合理地表示为多行多列的形式,即使那样表示,每行(列)也没有具体的含义。

    2.文本数据预处理

    文本数据,是一种非结构化数据,与我们之前分析的结构化数据有所不同。因此,其预处理的步骤与方式也会与结构化数据有所差异。文本数据预处理主要包含:

      ◆缺失值处理
      ◆重复值处理
      ◆文本内容洁洗
      ◆分词
      ◆停用词处理

    2.1 缺失值处理

    content字段存在缺失值,根据实际情况选择用headline字段对应值填充并检查填充后结果。

    2.2重复值处理

    查找重复值并删除

    2.3文本内容清洗

    文本中存在对分析作用不大的标点符号与特殊字符,使用re库中正则匹配方法去除

    2.4分词

    分词是将连续的文本,分割成语意合理的若干词汇序列,中文分词需要用jieba库中的方法实现分词功能

    2.5停用词处理

    停用词,指的是在我们语句中大量出现,但却对语义分析没有帮助的词。对于这样的词汇,我们通常可以将其删除,这样的好处在于:可以降低存储空间消耗、可以减少计算时间消耗。 对于哪些词属于停用词,已经有统计好的停用词列表,我们直接使用就好。



  • 相关阅读:
    《PHP
    2018/06/11 数据库设计规范
    RequireJs 与 SeaJs的相同之处与区别
    null 与 undefinded
    page 分页
    fullPage的使用
    touch事件(寻找触摸点 e.changedTouches)
    t添加最佳视口
    随鼠标动的炫彩小球
    随机小球
  • 原文地址:https://www.cnblogs.com/ICDTAD/p/14941325.html
Copyright © 2011-2022 走看看