HTTP 超文本传输协议 默认端口号:80 HTTPS HTTP + SSL(安全套接字层) 默认端口号:443
HTTPS比HTTP更安全,但是性能更低
HTTP常见请求头
1. Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)
------------------------------
爬虫的分类:聚焦爬虫和通类爬虫-
--------------------------------
微指数-新浪
-----------------------------------
robots.txt
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
------------------------------------
-
爬虫是模拟浏览器发送请求,获取响应
爬虫的流程
-
url--->发送请求,获取响应--->提取数据---》保存
-
发送请求,获取响应--->提取url
------------------------------------
页面上的数据在哪里
-
当前url地址对应的响应中
-
其他的url地址对应的响应中
-
比如ajax请求中
-
-
js生成的
-
部分数据在响应中
-
全部通过js生成
-
-----------------------------------------------