zoukankan      html  css  js  c++  java
  • 使用pyquery是遇到的一个403的问题

      在网上爬虫时,本地windows下运行pyquery代码正常,但是在linux下运行时一直报错 403 Forbidden。刚开始的代码如下

    from pyquery import PyQuery as pq
    
    html = pq('http://www.yixuanju.com/book/10462', encoding="utf-8")

      通过在网上搜索,都是说因为没有添加headers,导致服务器把你判定为爬虫程序。按照一般的解决方法,添加了请求头headers,修改后代码如下

    from pyquery import PyQuery as pq
    
    headers = {
    'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
    }
    
    html = pq('http://www.yixuanju.com/book/10462', encoding="utf-8", headers=headers)

      可是上述代码执行后还是报403错误。最后查看源码,原来使用pyquery,到后面是调用到url_opener(url, kwargs)方法时出现问题了。原来openers在发送请求时,会先判断你是否可以引入requests模块,如果引入了该模块,会使用requests去发送请求,否则采用urllib3的request请求。而urllib3的调用时,会将你的头信息等丢失,导致参数失效。

      我也是因为windows上安装过requests,而linux下没安装requests,导致两处方法执行有差别。安装好requests模块后,之前的问题也就解决了。

  • 相关阅读:
    NIO编程介绍
    伪异步IO
    BIO模型
    Json
    Jquery笔记
    JQuery与Ajax
    jQuery之事件和动画
    JQueryDOM节点操作
    认识Jquery
    javascript之DOM
  • 原文地址:https://www.cnblogs.com/feiyu127/p/7659987.html
Copyright © 2011-2022 走看看