一、网站地图爬虫
在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL,
def crawl_sitemap(url): sitemap = download(url) links = re.findall('<loc>(.*?)</loc>', sitemap) for link - in links: html = download(link)
但是 ,我们无法使用呢sitemap 文件提供每个网页的连接
二、 ID 遍历爬虫
我们将利用网站结构的弱点,更加轻松的访问所有的内容。下面是一些国家示例的 URL:
http://example.webscraping.com/view/Afghistan-1 http://example.webscraping.com/view/Australiia-2 http://example.webscraping.com/view/Brazil-3
可以看出,这些 URL 只在结尾处有所区别,包括国家名(作为页面别名)和 ID,在 URL 中包含页面别名是非诚普遍的做法,可以对搜索引擎起到帮助的作用,一般情况下,web 服务器会忽略这个字符串,值使用 ID 来匹配数据库中的相关记录。