zoukankan      html  css  js  c++  java
  • Scrapy初体验(一) 环境部署

    系统选择centOs 7,Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

    其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

    Linux发行版都自带Python环境,Scrapy官方推荐使用pip安装Scrapy,因此首先需要安装pip.
    去github下载pip最新安装包。pip install
    目前版本是7.1.2下载完成得到一个pip-7.1.2.tar.gz的压缩包,然后执行命令解压缩

    1
    $ tar zvxf pip-7.1.2.tar.gz

    进入解压好的pip-7.1.2目录,找到setup.py并安装执行

    1
    $ sudo python setup.py install

    执行完成后就可以使用pip命令了。
    然后使用pip命令安装Scrapy

    1
    $ sudo pip install Scrapy

    安装过程中会出现一个报错:

    大专栏  Scrapy初体验(一) 环境部署s="line">1
    2
    编译中断。
    error: command 'gcc' failed with exit status 1

    解决办法是执行

    1
    $ yum install gcc python-devel

    安装完成后再次执行以上pip install Scrapy命令等待安装完成,直到终端出现如下文字提示,代表安装完成,即可使用Scrapy抓取数据了。

    1
    2
    3
    4
    Installing collected packages: Twisted, characteristic, pyasn1-modules, service-identity, Scrapy
    Running setup.py install for Twisted
    Running setup.py install for pyasn1-modules
    Successfully installed Scrapy-1.0.3 Twisted-15.4.0 characteristic-14.3.0 pyasn1-modules-0.0.7 service-identity-14.0.0

  • 相关阅读:
    频率组件
    Django-admin组件
    Python全栈开发课堂笔记_day03
    python全栈开发day02
    python全栈开发day01
    正确认知自己,做真实的自己
    翻出大学时期收集的文章来看看
    mybatis中的#{}和${}
    Parameter index out of range (2 > number of parameters, which is 1)
    中间件
  • 原文地址:https://www.cnblogs.com/lijianming180/p/12347421.html
Copyright © 2011-2022 走看看