zoukankan      html  css  js  c++  java
  • 爬虫

    1. 编码方式和解码方式必须保持一致
    2. HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层),port:443
    3. 爬虫模拟浏览器发送请求,获取响应,一种按照一定的规则,自动的抓取互联网信息的程序---只要是浏览器能做的事情,原则上,爬虫都可以做
    4. 聚焦爬虫,url-->发送请求,获取响应-->提取url-->提取数据-->保存
    5. q 权重
    6. HTTP常见请求头
    7. post--图片,表单,登录注册。一般情况下都会用get 

    8. 200:成功
      302/307:临时转移至新的url
      404:not found
      500:服务器内部错误
    9. 浏览器发送HTTP请求的过程
    10. DNS 域名解析 
    11.  爬虫的分类
      1.通用爬虫:指搜索引擎的爬虫
      2.聚焦爬虫:针对特定的几个网站

    12. ROBOTS协议
    13. 爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样
    14. 页面上的数据在哪里
      1.当前url地址对应的响应中
      2.其他的url地址对应的响应中
        ajax请求的
      3.js生成
        部分数据在响应中
        全部通过js生成
    15. 发送简单的请求
      通过requests发送请求
      response = request.get(url)
      常用方法
      response.text
      response.content ==>  获取 请求头
      response.status_code  ==>  获取状态码
      response.request.headers  ==>  获取 请求头
      response.request.url==>  获取 请求的url地址
      response.headers  ==>  获取响应头

    16. assert (断言)+布尔类型的判断
    17. 发送带参数的请求
      kw = {"wd":"长城"}
      url = “http://www.baidu.com”
      hearders = {字典形式,请求头}
      requests.get(url,params=kw,hearders = hearders)
  • 相关阅读:
    Flask初识之安装及HelloWord程序
    Python 四大主流 Web 编程框架
    Mysql之锁、事务绝版详解---干货!
    Django基础九之中间件
    Django基础八之cookie和session
    Django基础七之Ajax
    Django基础六之ORM中的锁和事务
    Linux下使用tail查找日志文件关键词有颜色、高亮显示
    主流云测平台汇总
    RPC框架总述
  • 原文地址:https://www.cnblogs.com/mujun95/p/11875432.html
Copyright © 2011-2022 走看看