新闻分类-数据预处理 - 走看看

zoukankan html css js c++ java

新闻分类-数据预处理
1.结构化数据与非结构化数据

结构化数据，是可以表示成多行多列的形式，并且，每行（列）都有着具体的含义。非结构化数据，无法合理地表示为多行多列的形式，即使那样表示，每行（列）也没有具体的含义。

2.文本数据预处理

文本数据，是一种非结构化数据，与我们之前分析的结构化数据有所不同。因此，其预处理的步骤与方式也会与结构化数据有所差异。文本数据预处理主要包含：
◆缺失值处理 ◆重复值处理 ◆文本内容洁洗 ◆分词 ◆停用词处理

2.1 缺失值处理

content字段存在缺失值，根据实际情况选择用headline字段对应值填充并检查填充后结果。

2.2重复值处理

查找重复值并删除

2.3文本内容清洗

文本中存在对分析作用不大的标点符号与特殊字符，使用re库中正则匹配方法去除

2.4分词

分词是将连续的文本，分割成语意合理的若干词汇序列，中文分词需要用jieba库中的方法实现分词功能

2.5停用词处理

停用词，指的是在我们语句中大量出现，但却对语义分析没有帮助的词。对于这样的词汇，我们通常可以将其删除，这样的好处在于：可以降低存储空间消耗、可以减少计算时间消耗。对于哪些词属于停用词，已经有统计好的停用词列表，我们直接使用就好。
查看全文

相关阅读:
[Swift通天遁地]五、高级扩展-(2)扩展集合类型
 [Swift通天遁地]五、高级扩展-(1)快速检测设备属性：版本、类型、屏幕尺寸
 [Swift]LeetCode266.回文全排列 $ Palindrome Permutation
[Swift]LeetCode265.粉刷房子 II $ Paint House II
[Swift]LeetCode264.丑数 II | Ugly Number II
[Swift通天遁地]四、网络和线程-(15)程序内购功能
 [Swift通天遁地]四、网络和线程-(14)创建一个Socket服务端
 hdu 4888 Redraw Beautiful Drawings(最大流，判环)
【剑指offer】斐波那契序列与跳台阶
 Asp.NET之对象学习

原文地址：https://www.cnblogs.com/ICDTAD/p/14941325.html

Copyright © 2011-2022 走看看