zoukankan      html  css  js  c++  java
  • 请求headers处理

      有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介绍请求头部headers的处理,如下:

      (1)通过浏览器的网络监视器查看头部信息,通过谷歌浏览器打开对应的网页地址,然后打开网络监视器,再刷新当前页面,网络监视器将显示如图所示的数据变化

    (2)选中第一条信息,右侧的消息头面板中将显示请求头部信息,然后复制该信息

    (3)实现代码,首先创建一个需要爬取的url地址,然后创建header头部信息,再发送请求等待响应,最后打印网页的代码信息,如下:

    import requests
    
    url='https://www.baidu.com/'
    #创建头部信息
    headers={'User-Agent':'OW64;rv:59.0)Gecko/20100101 Chrome/71.0'}
    
    response=requests.get(url,headers=headers)
    print(response.content)

    这个信息的拷贝有点问题,我是抄书上的,实践中存有疑问

  • 相关阅读:
    flutter开发环境的搭建
    创建一个android项目
    android studio 安装与配置
    sentinel-dashboard.jar 安装
    三:nacos的配置中心
    二:nacos 的服务注册
    spring boot 在windows下的 批文件部署
    一:nacos 的安装与启动方式
    mysql 命令行安装方式
    Git 出现 Permission denied 时,重新生成ssh密钥
  • 原文地址:https://www.cnblogs.com/start20180703/p/10441773.html
Copyright © 2011-2022 走看看