在学习爬虫时,爬虫报了如下类型的错误,即被远程主机强制关闭了链接。
分析原因:
频繁的请求服务器,导致服务器发爬虫的怀疑,被网站认定为攻击行为,最终抛出 10054异常。
解决方法:
1、在各个请求之间添加随机延时等待;
2、每次请求数据处理完成后,使用 response.close() 关闭;
3、随机使用不同的User-Agent;
4、使用IP代理
分析原因,是因为使用urlopen方法太过频繁,引起远程主机的怀疑,被网站认定为是攻击行为。导致urlopen()后,request.read()一直卡死在那里。最后抛出10054异常