python爬虫-入门-了解爬虫 - 走看看

zoukankan html css js c++ java

python爬虫-入门-了解爬虫
作为一个爬虫新手，我觉得首先要了解爬虫是的作用以及应用。

作用：通过爬虫获取网页内的信息。包括：标题（title）图片（image）链接（url）等等

应用：抽取所需信息，进行数据汇总及分析（从事网页测试、数据分析工作很容易用到）

然后，了解一下爬虫前需要获取哪些信息。

1.哪些网站爬取时有哪些限制

检查robots文件，

user-agent:　　Badcrawler 禁止用户代理Badcrawler　　　　user-agent　　·　　　允许用户代理访问

crawl-delay：　　5　　用户代理在两次下载请求间给出5s抓取延迟

Disallow： /trap　　禁止访问/trap链接，如果访问此链接会禁止访问端的访问权限

Sitemap： http://example.webscraping.com/sitemap.xml　　定义了一个文件Sitemap（网站地图）

2.检查网站地图

通过Sitemap文件可以帮爬虫定位最新的内容，而无需爬取每一个网页。当然，这个文件也会存在缺失，过期等不完整问题

3.估算网站大小（这个比较复杂，暂时没看明白）

估算网站的大小，使用正确的方法

4.了解网站所用的技术及网站所有者
```
#导入检查网站结构的技术类型模块
import builtwith
#导入协议或域名查询模块
import whois
parse = builtwith.parse('http://example.webscraping.com')
print(parse)
添加 builtwith 以及 whois 库
```
查看全文

相关阅读:
进程的实践与练习2
士兵队列训练问题
 大数相加
 Ignatius and the Princess II
Parentheses Balance （括号平衡）---栈
 简单计算器
 C++全排列函数next_permutation()和prev_permutation()
黑白图像
 9*9乘法表
 输入5 个数按从小到大的顺序输出

原文地址：https://www.cnblogs.com/xiaochige/p/10759371.html

最新文章
PGIS下载离线地图 SQLite+WPF
继续畅通工程
 畅通工程续
 J
H
The Suspects ( 非典与传染 )
G
E
F
D

Copyright © 2011-2022 走看看