zoukankan      html  css  js  c++  java
  • 爬虫经验总结一

    在爬取数据时有两种主要的方法:

        第一种方法是通过标签爬取数据,当想要爬取的数据格式相同时用这种方法很合适,

        在爬取新闻数据使用到这种方法时,需要注意的是新闻页面驳杂,有些是新闻子页,有一些是广告子页,还有很多是图片为主的新闻子页,

    遇到这种情况按照情况爬取自新闻面链接,通过观察发现正常的新闻子页的链接长度是在一定范围之间的,通过控制链接长度可以爬取需要的页面。

    其次在一个新闻页面中在不同的版块会有相同的新闻,这需要我们通过if语句将重复的新闻页面去掉。最后将数据结合在一起放入数据库。

  • 相关阅读:
    Java基本概念
    Java基础语法
    Java环境的搭建
    elicpse
    常见编译器EOP
    上传突破学习笔记
    认识ollydbg
    160个Crackerme破解
    python基础(1)
    文件上传
  • 原文地址:https://www.cnblogs.com/chaogehahaha/p/14843792.html
Copyright © 2011-2022 走看看