python 网络爬虫（三） - 走看看

zoukankan html css js c++ java

python 网络爬虫（三）
一、网站地图爬虫

　　在一个简单的爬虫中，我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站，为了解析网站地图，我们将会使用一个简单的正则表达式，从<loc>标签中提取 URL，
def crawl_sitemap(url): sitemap = download(url) links = re.findall('<loc>(.*?)</loc>', sitemap) for link - in links: html = download(link)
但是，我们无法使用呢sitemap 文件提供每个网页的连接

二、 ID 遍历爬虫

　　我们将利用网站结构的弱点，更加轻松的访问所有的内容。下面是一些国家示例的 URL：

　　
http://example.webscraping.com/view/Afghistan-1 http://example.webscraping.com/view/Australiia-2 http://example.webscraping.com/view/Brazil-3
可以看出，这些 URL 只在结尾处有所区别，包括国家名（作为页面别名）和 ID，在 URL 中包含页面别名是非诚普遍的做法，可以对搜索引擎起到帮助的作用，一般情况下，web 服务器会忽略这个字符串，值使用 ID 来匹配数据库中的相关记录。

　　
查看全文

相关阅读:
商场活动|简单易用|可下载试用|复用转盘抽奖软件
 js dictionary
财务大写
 SET ANSI_NULLS ON ……
批量生成clr脚本
 Git
CTE递归查询
 jquery 巧用json传参
 个人犯的一个golang routine错误
 .NET实现自动编译

原文地址：https://www.cnblogs.com/jcjc/p/10873760.html

Copyright © 2011-2022 走看看