爬虫隐藏 - 走看看

zoukankan html css js c++ java

爬虫隐藏

1、服务器是如何识别访问来自浏览器还是非浏览器

通过post的http头中的User-Agent来进行识别浏览器与非浏览器，服务器还以User-Agent来区分各个浏览器。

2、明明代码跟视频中的例子一样，一运行却出错了，在不修改代码的情况下重新运行一次却又变好了，这是为什么？

在网络信息的传输中会出现偶然的丢包现象，有可能是你发送的请求服务器没有收到，也有可能是服务器响应的信息不能完整送回来

尤其是在网络阻塞的时候，所以，在设计一个称职的爬虫时，需要考虑到这偶尔的丢包现象。

3、我们说的http是基于“请求-响应”模式，request即请求的意思，response是响应的意思，由客户端首先发出request

服务器收到后返回response。

4、如何为一个request对象动态的添加header？

add_header()方法添加。

5、简单来说，代理服务器是如何工作的？有时候为什么不工作？

将信息传递给代理服务器，代理服务器替你向你要访问的服务器发送请求，然后把内容返回给你。

因为有丢包现象，所以多了一个中间人会增加丢包几率，且大多数代理并不只是为一个人服务，尤其是免费代理。

ps：大家想做‘坏坏’的事情可以考虑多几层代理，一般来说，路由器日志并不会保存很长时间，几层代理后，基本很难查到是谁请求的。

6、http有好几种方法（get，post，put，head，delete，options，connect）请问如何得知python是使用哪种方法访问服务器的呢

使用get_method()方法获取request对象具体使用哪种方法访问服务器。最常用的无非就是get和post了，当request的data参数被赋值的时候

get_method返回post，否则一般情况下返回get。

7、cookie可以分为两类

一类是即时过期的cookies，称为会话cookies，当浏览器关闭时（这里是Python的请求程序）自动清除。

一类是有期限的cookies，由浏览器进行存储，并在下一次请求该网站时自动附带（如果没有过期或者清理的话）

查看全文

相关阅读:
Hello world
Kubernetes容器云平台建设实践
 工作方法决定自己的发展
 Excel中对身份证号的处理
 详解慢查询日志的相关设置及mysqldumpslow工具
 安全测试工具简介
 Redis使用
 linux centos 查看防火墙firewalld、iptables状态
 悄悄地存在这里，因为里面的一句话
 GAE Python 2009322

原文地址：https://www.cnblogs.com/themost/p/6659914.html