zoukankan      html  css  js  c++  java
  • Scrapy学习(二)、安装及项目结构

    一、安装

    1、安装pywin32,下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/

    我选择的是Build 221,点进去,根据自己电脑的python版本下载对应的版本

    下载下来后,直接运行exe文件,无脑下一步,直至安装完成

    2、安装Twisted,下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

    找到Twisted,下载对应版本

    下载完成后直接pip安装

    3、安装scrapy,直接pip install scrapy。不报错就安装成功了

    二、项目结构

    1、创建项目

    进入到工作目录,比如D:GitSpider,直接运行命令:scrapy startproject city_58

    这样就成功创建了一个项目,进入到项目目录下,包含下列内容:

    city_58

    |scrapy.cfg

    |--city_58

         |   items.py

         |   middlewares.py

         |   pipelines.py

         |   settings.py

         |   __init__.py

         |--spiders

              |   __init__.py

    city_58目录下的文件分别是:

    scrapy.cfg:项目部署时的配置文件

    city_58/:项目模块,可以在这个目录下加入代码

    city_58/items.py:Items的定义,定义爬取的数据结构

    city_58/pipelines.py:定义数据管道

    city_58/middlewares.py:定义爬取时的中间件

    city_58/settings.py:配置文件

    city_58/spiders/:放置Spiders的文件夹

    2、创建Spider

    进入项目模块文件夹,这里是city_58,运行命令: scrapy genspider spider_city_58  58.com,其中spider_city_58 为爬虫名称,用于区别Spider,该名字必须是唯一的;58.com为启动时进行爬取的入口URL

  • 相关阅读:
    实验4:开源控制器实践——OpenDaylight
    实验3:OpenFlow协议分析实践
    SDN实验2:Open vSwitch虚拟交换机实践
    实验1:SDN拓扑实践
    面向对象程序设计2020寒假作业3
    自我介绍
    Python进程和线程
    同步 Github fork 出来的分支
    Git指令中fetch和pull的区别
    Git多人协作维护仓库简单流程
  • 原文地址:https://www.cnblogs.com/eastonliu/p/9911586.html
Copyright © 2011-2022 走看看