zoukankan      html  css  js  c++  java
  • 爬虫之pyspider 安装

    解决方法:

    利用wheel安装

    S1: pip install wheel
    S2: 进入www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl + F查找pycurl


    S3:
    这个包名是pycurl-版本-你下载的python版本(如python3.4,就是cp34)-win32/64操作系统),选择你所需要的进行下载
    S4: 安装编译包,命令行输入 pip install 你下载的whl文件的位置如(d:pycurl-7.43.1-cp34-cp34m-win_amd64.whl)
    S5: 继续pip install pyspider

     

    1.在使用pip安装一些库时,有时候会出现这么两行提示

    You are using pip version 9.0.1, however version 18.1 is available.
    You should consider upgrading via the 'python -m pip install --upgrade pip' command.

    这就是提示你版本太低需要更新pip版本
    使用它提示里的命令

    python -m pip install --upgrade pip

    把pip更新一下就好了,在重新执行你需要安装的命令就好了

    2.pyspider爬虫框架错误 HTTPError: HTTP 599: SSL certificate problem: self signed certificate in certificate chain
    原因:这个错误是因为你要爬取的网站带有HTTPS的验证,而你本地找不到这个验证所以产生了这个错误,错误有两种解决方法:
    第一种:在你需要爬取的网址后面的在

    crawl 方法中加入忽略证书验证的参数,validate_cert=False,
    即self.crawl(url, callback=method_name, validate_cert=False)

    设置以后记得SAVE一下重新RUN爬虫,如果继续出现这个错误,那就说明你的pyspider版本低的问题,也就是说pyspider最新源码和最新文档里都有,但是可能还未更新到最新的安装包里,那么采用第二种方法

    第二种:于是先git下来最新的pyspider源码,把C:UsersAdministratorAppDataLocalProgramsPythonPython36-32Libsite-packages目录下的pyspider整个文件夹删掉,用git下的源码里的pyspider整体复制过去,重启pyspider all,再次浏览器中RUN

     
    捕获.JPG

    成功解决!!
    附上俩地址一个是 pyspider的官网API文档,另一个是pyspiderd的源码,直接下载这个然后替换你的pyspider文件夹

    3.在实际的调试中发现pyspider的Web预览界面只有一点非常小
    原因:web预览框过小的原因在于页面元素的css属性height被替换为60px
    所以我们需要更改CSS文件的内容,但是这个应该不是所有浏览器都通用,只是测试了Chrome浏览器是可以的
    在你的pyspider目录下

    C:UsersAdministratorAppDataLocalProgramsPythonPython36-32Libsite-packagespyspiderwebuistatic

    我的是这个,找到这样的一个文件叫debug.min.css有的也是debug.min
    但是!!!重点来了!!看清楚

     
    捕获.JPG


    作者:Wangthirteen
    链接:https://www.jianshu.com/p/7bff6fd4dc1b
    来源:简书
    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
  • 相关阅读:
    MPTCP iperf 发包方式
    Java 中的覆盖@Override注解 写与不写的一点点理解
    servlet 方法有哪些
    java 获取HTTP 头部信息
    七种访问方式(get post及上传文件)
    Enumeration接口的用法
    HTTP头部详解及使用Java套接字处理HTTP请求
    以debug模式启动tomcat服务器
    第一个servlet 使用out输出html文档
    基于Servlet3.0的文件上传
  • 原文地址:https://www.cnblogs.com/qj696/p/11324385.html
Copyright © 2011-2022 走看看