zoukankan      html  css  js  c++  java
  • Python 爬虫 不得不说的 清洗

    今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。

    为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。

    如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规则比较少,对于国外的网站,由于老外崇尚自由,

    在他们的网站中最直接的体现就是一个网站可能需要写多套模板,清洗的时候比较麻烦。有什么好的方法去做好清洗的工作吗?

    第一:足够的耐心。清洗的时候我们会遇到各种问题,所有要有耐心去做好这件事情。

    第二:明确原始数据和目标数据,我觉得这点很重要的,为什么? 第一就是原始数据有好多种,如果在前期不知道有哪些原始的数据,当我们写好代码的时候,去运行,这个时候会出现各种报错,我们还得回头去修改自己的代码,带来没必要的麻烦。这个时候可以利用SQL语句  group by  去查询一个字段有哪些类型,然后去写相应的清洗代码

    第三:使用  re ,replace,if  合理的搭配,提高清洗地效果。

    第四:在编写清洗代码的时候,可以让自己的代码跑起来,一遍写代码,一遍去测试自己的清洗代码是否有错误。我觉得这点很重要,在实际的清洗工作中,这一招是屡试不爽。

    第五:我觉得在实际的清洗过程中,保留原始代码是很重要的,所以在下载网页的过程中,很有必要去存储原始网页的信息,清洗的时候遇到漏采的字段,不需要再去下载网页了。

  • 相关阅读:
    关于两端对齐
    关于删除节点的兼容写法
    因为一个css,导致网页在手机上滑动不流畅
    Java垃圾回收机制
    Java的ArrayList
    大神说,规则引擎,反正不懂,留个纪念,以后看
    Java克隆
    i++和++i的区别
    JavaScript中的方法或者变量名称前面有下划线,是做什么的?
    RandomAccess接口是空的,那它是用来做什么的呢?
  • 原文地址:https://www.cnblogs.com/xuchunlin/p/8135612.html
Copyright © 2011-2022 走看看