1.http和https
-
http:
-
概念:clinet和Server进行数据交互的某种形式
-
-
常用的头信息:
-
User-Agent:请求载体的身份标识
-
Connection:close
-
content-type:
-
-
https:
-
概念:安全的http协议
-
证书
-
对称秘钥加密
-
在本地用公钥进行加密,然后将数据和私钥发送给服务端
-
-
非对称秘钥加密
-
由服务端提供公钥,客户端进行加密后在传送给服务端
-
-
证书秘钥加密方式
-
服务端将公钥发送给证书机构,然后给公钥打标记,在发送给客户端
-
-
-
爬虫相关概述
-
爬虫概念:
-
通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
-
模拟:浏览器就是一款纯天然的原始的爬虫工具
-
-
-
爬虫分类:
-
通用爬虫:爬取一整张页面中的数据. 抓取系统(爬虫程序)
-
聚焦爬虫:爬取页面中局部的数据.一定是建立在通用爬虫的基础之上
-
增量式爬虫:用来监测网站数据更新的情况.以便爬取到网站最新更新出来的数据
-
-
风险分析
-
合理的的使用
-
爬虫风险的体现:
-
爬虫干扰了被访问网站的正常运营;
-
爬虫抓取了受到法律保护的特定类型的数据或信息。
-
-
避免风险:
-
严格遵守网站设置的robots协议;
-
在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
-
在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
-
-
-
反爬机制
-
反反爬策略
-
robots.txt协议:文本协议,在文本中指定了可爬和不可爬的数据说明.