Python 爬虫不得不说的清洗

zoukankan html css js c++ java

Python 爬虫不得不说的清洗

今天就聊聊爬虫的清洗，下载网页只是最简单的一个步骤，最让人头疼的是数据的清洗。

为什么要这样说呢，因为爬虫首先是获得数据，清洗是把非结构化的数据转换成结果化的数据，这个时候是最考验人的时候。

如果是国内的网站，清洗工作相对比较简单，因为国内的数据不是那么的凌乱，有一定的规则，我们清洗的时候需要写的规则比较少，对于国外的网站，由于老外崇尚自由，

在他们的网站中最直接的体现就是一个网站可能需要写多套模板，清洗的时候比较麻烦。有什么好的方法去做好清洗的工作吗？

第一：足够的耐心。清洗的时候我们会遇到各种问题，所有要有耐心去做好这件事情。

第二：明确原始数据和目标数据，我觉得这点很重要的，为什么？第一就是原始数据有好多种，如果在前期不知道有哪些原始的数据，当我们写好代码的时候，去运行，这个时候会出现各种报错，我们还得回头去修改自己的代码，带来没必要的麻烦。这个时候可以利用SQL语句 group by 去查询一个字段有哪些类型，然后去写相应的清洗代码

第三：使用 re ，replace，if 合理的搭配，提高清洗地效果。

第四：在编写清洗代码的时候，可以让自己的代码跑起来，一遍写代码，一遍去测试自己的清洗代码是否有错误。我觉得这点很重要，在实际的清洗工作中，这一招是屡试不爽。

第五：我觉得在实际的清洗过程中，保留原始代码是很重要的，所以在下载网页的过程中，很有必要去存储原始网页的信息，清洗的时候遇到漏采的字段，不需要再去下载网页了。

查看全文

相关阅读:
菜鸟fork()创建进程新见解
 Linux下select函数的使用
 URAL 1029 Ministry
URAL 1036 Lucky Tickets
URAL 1031 Railway Tickets
URAL 1028 Stars
URAL 1032 Find a Multiple
URAL 1037 Memory Management
URAL 1033 Labyrinth
URAL 1039 Anniversary Party

原文地址：https://www.cnblogs.com/xuchunlin/p/8135612.html

Python 爬虫 不得不说的 清洗

Python 爬虫不得不说的清洗