zoukankan      html  css  js  c++  java
  • Scrapy学习(二)、安装及项目结构

    一、安装

    1、安装pywin32,下载地址:https://sourceforge.net/projects/pywin32/files/pywin32/

    我选择的是Build 221,点进去,根据自己电脑的python版本下载对应的版本

    下载下来后,直接运行exe文件,无脑下一步,直至安装完成

    2、安装Twisted,下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

    找到Twisted,下载对应版本

    下载完成后直接pip安装

    3、安装scrapy,直接pip install scrapy。不报错就安装成功了

    二、项目结构

    1、创建项目

    进入到工作目录,比如D:GitSpider,直接运行命令:scrapy startproject city_58

    这样就成功创建了一个项目,进入到项目目录下,包含下列内容:

    city_58

    |scrapy.cfg

    |--city_58

         |   items.py

         |   middlewares.py

         |   pipelines.py

         |   settings.py

         |   __init__.py

         |--spiders

              |   __init__.py

    city_58目录下的文件分别是:

    scrapy.cfg:项目部署时的配置文件

    city_58/:项目模块,可以在这个目录下加入代码

    city_58/items.py:Items的定义,定义爬取的数据结构

    city_58/pipelines.py:定义数据管道

    city_58/middlewares.py:定义爬取时的中间件

    city_58/settings.py:配置文件

    city_58/spiders/:放置Spiders的文件夹

    2、创建Spider

    进入项目模块文件夹,这里是city_58,运行命令: scrapy genspider spider_city_58  58.com,其中spider_city_58 为爬虫名称,用于区别Spider,该名字必须是唯一的;58.com为启动时进行爬取的入口URL

  • 相关阅读:
    [JavaScript] Number 方法总结
    [JavaScript] String 方法总结
    [JavaScript] Array 方法总结
    spring boot整合Hadoop
    Hadoop Yarn框架原理解析
    Spark RPC框架源码分析(二)RPC运行时序
    Spark RPC框架源码分析(一)简述
    Hadoop Yarn框架详细解析
    hadoop1.0 和 Hadoop 2.0 的区别
    一个故事告诉你什么才是好的程序员
  • 原文地址:https://www.cnblogs.com/eastonliu/p/9911586.html
Copyright © 2011-2022 走看看