爬虫基础知识 - 走看看

zoukankan html css js c++ java

爬虫基础知识
HTTP 超文本传输协议默认端口号:80 HTTPS HTTP + SSL(安全套接字层) 默认端口号：443

HTTPS比HTTP更安全，但是性能更低
HTTP常见请求头

1. Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding（文件编解码格式） 8. Cookie （Cookie） 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)
------------------------------

爬虫的分类：聚焦爬虫和通类爬虫-

--------------------------------

微指数-新浪

-----------------------------------

robots.txt

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

------------------------------------

爬虫的概念
- 爬虫是模拟浏览器发送请求，获取响应
爬虫的流程
- url--->发送请求，获取响应--->提取数据---》保存
- 发送请求，获取响应--->提取url
------------------------------------

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里
- 当前url地址对应的响应中
- 其他的url地址对应的响应中
  
  比如ajax请求中
- js生成的
  
  部分数据在响应中
  
  全部通过js生成
-----------------------------------------------
查看全文

相关阅读:
IE block my cookie in iframe
error app/styles/components/iconfont.scss (Line 12: Invalid GBK character "xE5")
angular4开发过程中遇到的问题和知识点记录
 博客
 009android初级篇之APP中使用系统相机相册等集成应用
 012android初级篇之Handler机制
 android studio win7开发环境
 001windows已遇到一个关键性问题一分钟后自动重启
 008android初级篇之jni中数组的传递
 006android初级篇之jni数据类型映射

原文地址：https://www.cnblogs.com/wsg-python/p/10083524.html

Copyright © 2011-2022 走看看