zoukankan      html  css  js  c++  java
  • scrapy 原理,结构,基本命令,item,spider,selector简述

    原理,结构,基本命令,item,spider,selector简述

    原理

    1)结构

     

     

    2)运行流程

     

    实操

    1) scrapy命令:

    注意先把python安装目录的scripts文件夹添加到环境变量

     

    查看帮助

    scrapy

    scrapy <command> -h

     

    创建项目

    scrapy startproject 项目名

     

    创建爬虫

    scrapy genspider [-t template] <name> <domain>

     

    运行爬虫

    运行一个爬虫的基本命令:

    scrapy crawl 爬虫名

    -a spider的构造器传参数

    -o表示写入文件,-t 表示以json格式输出

    scrapy crawl test -o test.json -t json

     

    查看可用爬虫

    scrapy list

     

    快捷爬取(不需要创建爬虫项目,爬取结果直接回送到命令行)

    scrapy fetch <url>

     

     

    2)项目结构功能

     

    3)item.py定义数据model

     

    4)spiders文件夹中的爬虫文件

    name爬虫名,唯一

    allowed_domains域名

    start_urls起始url

    parse函数——处理爬取到的response的函数

     

    基本格式:

     

    parse函数使用selector的格式:

     

    parse函数使用selector并通过生成器返回多个结果:

     

     

    5)selector

    四种格式(即spider文件parse函数中response对象的四个可用方法)

     

    response.xpath()

    response.css()

    response.extract()

    response.re()

     

    举例:response.xpath()使用

     

    selector的嵌套

     

     

     

    6)保存爬取结果的方式之一:Feed Exports

     

     

  • 相关阅读:
    定义一个动态的二维数组?
    学习STL map, STL set之数据结构基础
    CMM
    详细解说STL string
    仔细选择你的容器
    C++字符串类string简析
    流氓软件及反流氓软件的技术分析
    标准C++的类型转换符:static_cast、dynamic_cast、reinterpret_cast和const_cast
    C++资料下载
    unix系统操作命令大全
  • 原文地址:https://www.cnblogs.com/zealousness/p/8748643.html
Copyright © 2011-2022 走看看