zoukankan      html  css  js  c++  java
  • python爬虫添加请求头代码实例

    这篇文章主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

    request  

    import requests
    headers = {
      # 'Accept': 'application/json, text/javascript, */*; q=0.01',
      # 'Accept': '*/*',
      # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7',
      # 'Cache-Control': 'no-cache',
      # 'accept-encoding': 'gzip, deflate, br',
      'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
      'Referer': 'https://www.google.com/'
    }
    
    resp = requests.get('http://httpbin.org/get', headers=headers)
    print(resp.content)

    urllib

    import urllib, urllib2
    def get_page_source(url):
      headers = {'Accept': '*/*',
            'Accept-Language': 'en-US,en;q=0.8',
            'Cache-Control': 'max-age=0',
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
            'Connection': 'keep-alive',
            'Referer': 'http://www.baidu.com/'
            }
      req = urllib2.Request(url, None, headers)
      response = urllib2.urlopen(req)
      page_source = response.read()
      return page_source

    phantomjs请求页面

    from selenium import webdriver
    from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
    def get_headers_driver():
      desire = DesiredCapabilities.PHANTOMJS.copy()
      headers = {'Accept': '*/*',
            'Accept-Language': 'en-US,en;q=0.8',
            'Cache-Control': 'max-age=0',
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
            'Connection': 'keep-alive',
            'Referer': 'http://www.baidu.com/'
            }
      for key, value in headers.iteritems():
        desire['phantomjs.page.customHeaders.{}'.format(key)] = value
      driver = webdriver.PhantomJS(desired_capabilities=desire, service_args=['--load-images=yes'])#将yes改成no可以让浏览器不加载图片
      return driver

    主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

    以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持python博客。

    http://blog.sina.com.cn/s/blog_184e9f38b0102z269.html
    https://tieba.baidu.com/p/7168142321

    1、为什么要设置headers? 

    在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。

    headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。

    对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。

    http://www.jzb.com/bbs/thread-7868082-1-1.html

    2、 headers在哪里找? 

    谷歌或者火狐浏览器,在网页面上点击:右键–>检查–>剩余按照图中显示操作,需要按Fn+F5刷新出网页来 

    有的浏览器是点击:右键->查看元素,刷新

    以上就是python爬虫请求头设置代码的详细内容,更多关于python爬虫请求头如何设置的资料请关注脚本之家其它相关文章!

  • 相关阅读:
    AutoMapper用法
    这些基础却重要的面向对象概念,你还记得多少
    Ajax工作原理
    CSS中的绝对定位与相对定位
    NET中的Memcached.ClientLibrary使用详解
    经典Linq实例语句
    软件工程的意义
    C#.Net Mvc运营监控,计算方法/接口/action/页面执行时间
    属性与字段的区别
    SQL 递归树 子父节点相互查询
  • 原文地址:https://www.cnblogs.com/yuqiao668/p/14191298.html
Copyright © 2011-2022 走看看