zoukankan      html  css  js  c++  java
  • python 网络爬虫(三)

    一、网站地图爬虫

      在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL,

    def crawl_sitemap(url):
        sitemap = download(url)
        links = re.findall('<loc>(.*?)</loc>', sitemap)
        for link - in links:
            html = download(link)

    但是 ,我们无法使用呢sitemap 文件提供每个网页的连接

    二、 ID 遍历爬虫

      我们将利用网站结构的弱点,更加轻松的访问所有的内容。下面是一些国家示例的 URL:

      

    http://example.webscraping.com/view/Afghistan-1
    http://example.webscraping.com/view/Australiia-2
    http://example.webscraping.com/view/Brazil-3

    可以看出,这些 URL 只在结尾处有所区别,包括国家名(作为页面别名)和 ID,在 URL 中包含页面别名是非诚普遍的做法,可以对搜索引擎起到帮助的作用,一般情况下,web 服务器会忽略这个字符串,值使用 ID 来匹配数据库中的相关记录。

     

      

  • 相关阅读:
    商场活动|简单易用|可下载试用|复用转盘抽奖软件
    js dictionary
    财务大写
    SET ANSI_NULLS ON ……
    批量生成clr脚本
    Git
    CTE递归查询
    jquery 巧用json传参
    个人犯的一个golang routine错误
    .NET实现自动编译
  • 原文地址:https://www.cnblogs.com/jcjc/p/10873760.html
Copyright © 2011-2022 走看看