zoukankan html css js c++ java

爬虫防封IP

当抓取数据逐渐增大时，服务器的负荷会加大，会直接封掉来访IP：

采取措施：

　　1.创建请求头部信息：

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers);    #使用GET方式，获取网页数据

　　2.我们就只修改User-Agent还不够，爬虫1秒钟可以抓取很多图片，通过统计IP的访问频率，频率超过阈值，会返回一个验证码，如果是用户访问，用户就会填写继续访问，而代码访问就会被封IP，有两种解决方法：

　　（1）增设延时（耗时）

import time
time.sleep(3)#每3秒抓取1次

　　（2）构建自己代理IP池

proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
url="http://www.cntour.cn/"  #需要爬取的网址
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers,proxies=proxies);

查看全文

相关阅读:
在mac下使用ppk文件ssh到远程主机
 Openstack镜像和密码
 ubuntu下如何用命令行运行deb安装包
 python中使用@property
linux里的vi怎么移动到最后一行
 Git 怎样保证fork出来的project和原project（上游项目）同步更新
 使用msgfmt编译多语言文件
 ubuntu创建文件夹快捷方式命令
 ssh: connect to host localhost port 22: Connection refused 问题
 excel中如何批量将所有的网址设为超链接

原文地址：https://www.cnblogs.com/alex-xxc/p/9766446.html