Scrapy爬虫的基本使用 - 走看看

zoukankan html css js c++ java

Scrapy爬虫的基本使用

Scrapy爬虫的使用步骤

步骤1：创建一个工程和Spider模板

步骤2：编写Spider

步骤3：编写Item Pipeline

步骤4：优化配置策略

Scrapy爬虫的数据类型

Request类；Response类：Item类

Request类

class scrapy.http.Request()

Request对象表示一个HTTP请求

由Spider生成，由Downloader执行

属性和方法

url method headers body meta copy

callback(callable):指定一个回调函数，该回调函数以这个request的response作为第一个参数。如果未指定callback，则默认使用spider的parse()方法。

Response类

class scrapy.http.Response()

Response对象表示一个HTTP响应

由Downloader生成，由Spider处理

属性和方法

Item类

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容

由Spider生成，由Item Pipeline处理

Item类似字典类型，可以按照字典类型操作

Scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML信息提取方法

Beautiful Soup

lxml

re

XPath Selector

CSS Selector

CSS Selector的基本使用

查看全文

相关阅读:
知识要点
 SQL语法（包括建库、建表、建视图、查询、增加、删除、修改）
SQL语句（建库、建表、修改语句）
比较好的电影网站
 crud创建，修改，删除，查询
 代码创建与操作数据库
 数据库
 数组与集合
 结构体
 类的运用

原文地址：https://www.cnblogs.com/tingtin/p/13129371.html

Copyright © 2011-2022 走看看