zoukankan      html  css  js  c++  java
  • 请求headers处理

      有时在请求一个网页内容时,发现无论通过GET或者是POST以及其他请求方式,都会出现403错误。这种现象多数是由于服务器拒绝了您的访问,那是因为这些网页为了防止恶意采集信息,所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问,这样就解决了以上反爬虫设置的问题。下面以requests模块为例介绍请求头部headers的处理,如下:

      (1)通过浏览器的网络监视器查看头部信息,通过谷歌浏览器打开对应的网页地址,然后打开网络监视器,再刷新当前页面,网络监视器将显示如图所示的数据变化

    (2)选中第一条信息,右侧的消息头面板中将显示请求头部信息,然后复制该信息

    (3)实现代码,首先创建一个需要爬取的url地址,然后创建header头部信息,再发送请求等待响应,最后打印网页的代码信息,如下:

    import requests
    
    url='https://www.baidu.com/'
    #创建头部信息
    headers={'User-Agent':'OW64;rv:59.0)Gecko/20100101 Chrome/71.0'}
    
    response=requests.get(url,headers=headers)
    print(response.content)

    这个信息的拷贝有点问题,我是抄书上的,实践中存有疑问

  • 相关阅读:
    CodeForces 706C Hard problem
    CodeForces 706A Beru-taxi
    CodeForces 706B Interesting drink
    CodeForces 706E Working routine
    CodeForces 706D Vasiliy's Multiset
    CodeForces 703B Mishka and trip
    CodeForces 703C Chris and Road
    POJ 1835 宇航员
    HDU 4907 Task schedule
    HDU 4911 Inversion
  • 原文地址:https://www.cnblogs.com/start20180703/p/10441773.html
Copyright © 2011-2022 走看看