zoukankan      html  css  js  c++  java
  • python之爬虫scrapy框架的搭建

    一、爬虫与html的关系?

          大家都知道,我们所浏览的网页,他们一个个的本质都是html界面。既然是html界面那么他们肯定是都有着自己的源码。所以说只要我们获取了任意网页的源码,那么就能够显示这样的界面,则表明,网页中所展示出的信息都包含在了html的源码的之中,那么我们就可以将其与爬虫相结合起来了,在html的界面上按照一定的规则取出我们想要的数据。

    二、爬虫的scrapy框架的搭建

        这个框架整整困扰了我五个小时,因为第一次接触python,上来直接就是爬虫,所以难免有点懵。

        首先是

    安装,如果出现下面这种情况就是安装成功了。

    1、当然你也可能出现版本过低的情况,只需要按照提示输入升级版本就可以了,如下:


    2、还有可能出现下面这种情况:

    错误提示如下:

    Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

    根据在网上查询到的结果,scrapy是依赖于 Microsoft Visual C++ 14.0编译器,提示这个错误的原因,就是电脑没有安装上编译器。他会给你提示Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
    但是这种是不建议的,这个编译器太大了,费时。

    我找到更简单的方法是,直接下载一个Twisted,下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    这本身就是一个包。下载与你的python相对应的包,切记。下来只需要在cmd里运行pip install加上你下载的文件的路径。这是离线下载,最后还找到一种在线下载,这届输入pip install Twisted,不过这个方法我没有试过,有想法的可以尝试一下,

    3、lxml包没有安装成功

    同样可以去下载lxml包,依旧是上面那个网站。这是离线下载,以为我安的时候不知道为什么链接打不开了,所以我只能找其他的方法啊,最后终于被我找到,还有在线下载,直接在cmd中输入pip install lxml直接在线下载,比较方便,个人推荐。

    最后次进行安装 pip install  scrapy.

    结束了。

  • 相关阅读:
    BZOJ3997:[TJOI2015]组合数学(DP,Dilworth定理)
    BZOJ4807:車(组合数学,高精度)
    BZOJ4008:[HNOI2015]亚瑟王(DP,概率期望)
    BZOJ1499:[NOI2005]瑰丽华尔兹(DP,单调队列)
    洛谷1514 引水入城
    洛谷 1018 乘积最大
    八数码难题
    CODEVS 1069关押罪犯
    CODEVS 1067 机器翻译
    洛谷 P1417 烹调方案
  • 原文地址:https://www.cnblogs.com/moxihuishou/p/12489900.html
Copyright © 2011-2022 走看看