zoukankan      html  css  js  c++  java
  • scrapy 原理,结构,基本命令,item,spider,selector简述

    原理,结构,基本命令,item,spider,selector简述

    原理

    1)结构

     

     

    2)运行流程

     

    实操

    1) scrapy命令:

    注意先把python安装目录的scripts文件夹添加到环境变量

     

    查看帮助

    scrapy

    scrapy <command> -h

     

    创建项目

    scrapy startproject 项目名

     

    创建爬虫

    scrapy genspider [-t template] <name> <domain>

     

    运行爬虫

    运行一个爬虫的基本命令:

    scrapy crawl 爬虫名

    -a spider的构造器传参数

    -o表示写入文件,-t 表示以json格式输出

    scrapy crawl test -o test.json -t json

     

    查看可用爬虫

    scrapy list

     

    快捷爬取(不需要创建爬虫项目,爬取结果直接回送到命令行)

    scrapy fetch <url>

     

     

    2)项目结构功能

     

    3)item.py定义数据model

     

    4)spiders文件夹中的爬虫文件

    name爬虫名,唯一

    allowed_domains域名

    start_urls起始url

    parse函数——处理爬取到的response的函数

     

    基本格式:

     

    parse函数使用selector的格式:

     

    parse函数使用selector并通过生成器返回多个结果:

     

     

    5)selector

    四种格式(即spider文件parse函数中response对象的四个可用方法)

     

    response.xpath()

    response.css()

    response.extract()

    response.re()

     

    举例:response.xpath()使用

     

    selector的嵌套

     

     

     

    6)保存爬取结果的方式之一:Feed Exports

     

     

  • 相关阅读:
    开机自启动程序 注册表
    windows系统调用 线程创建
    windows系统调用 进程终止
    windows系统调用 进程快照
    线性表基本维护[ACM]
    获取操作系统版本号
    获得进程句柄
    <五>JDBC_利用反射及JDBC元数据编写通用的查询方法
    <四>JDBC_PreparedStatement的使用
    <三>JDBC_面向对象思想的体现
  • 原文地址:https://www.cnblogs.com/zealousness/p/8748643.html
Copyright © 2011-2022 走看看