zoukankan      html  css  js  c++  java
  • Scrapy学习(二)、安装及项目结构

    一、安装

    1、安装pywin32,下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/

    我选择的是Build 221,点进去,根据自己电脑的python版本下载对应的版本

    下载下来后,直接运行exe文件,无脑下一步,直至安装完成

    2、安装Twisted,下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

    找到Twisted,下载对应版本

    下载完成后直接pip安装

    3、安装scrapy,直接pip install scrapy。不报错就安装成功了

    二、项目结构

    1、创建项目

    进入到工作目录,比如D:GitSpider,直接运行命令:scrapy startproject city_58

    这样就成功创建了一个项目,进入到项目目录下,包含下列内容:

    city_58

    |scrapy.cfg

    |--city_58

         |   items.py

         |   middlewares.py

         |   pipelines.py

         |   settings.py

         |   __init__.py

         |--spiders

              |   __init__.py

    city_58目录下的文件分别是:

    scrapy.cfg:项目部署时的配置文件

    city_58/:项目模块,可以在这个目录下加入代码

    city_58/items.py:Items的定义,定义爬取的数据结构

    city_58/pipelines.py:定义数据管道

    city_58/middlewares.py:定义爬取时的中间件

    city_58/settings.py:配置文件

    city_58/spiders/:放置Spiders的文件夹

    2、创建Spider

    进入项目模块文件夹,这里是city_58,运行命令: scrapy genspider spider_city_58  58.com,其中spider_city_58 为爬虫名称,用于区别Spider,该名字必须是唯一的;58.com为启动时进行爬取的入口URL

  • 相关阅读:
    CentOS6.4 安装OpenResty和Redis 并在Nginx中利用lua简单读取Redis数据
    nginx缓存批量清除
    Centos下Yum安装PHP5.5,5.6
    php中的脚本加速扩展opcache
    Centos 6.5 挂载硬盘 4K对齐 (笔记 实测)
    centos6.5下编译安装FFmpeg
    Python学习九:列表生成式
    Python Select 解析
    Python之基于socket和select模块实现IO多路复用
    Python之路,Day9 , IO多路复用(番外篇)
  • 原文地址:https://www.cnblogs.com/eastonliu/p/9911586.html
Copyright © 2011-2022 走看看