scrapy 框架 - 走看看

zoukankan html css js c++ java

scrapy 框架

selecto创建爬虫

1、创建项目

scrapy startproject [项目名称]

2、进入项目所在的路径，创建爬虫

scrapy genspider [爬虫名字] [爬虫的域名] **爬虫名字不能和项目名称一致

项目目录结构

4.response是一个html对象可以执行xpath，css，re语法来提取数据

5、提取出来的数据是一个selector 或者selectorlist 对象，可以用getall() 或者get()方法获取

6、getall()方法获取selector中所有的文本返回一个列表

7、get()方法获取selector中第一个文本，返回一个str

8、如果数据解析回来，要传给pipline处理，那么可以用yield来返回，或者收集所有的数据，最后用return来返回

9、item：建议在item里定义好模型，以后不要经常使用字典。

10、pipeline：这个专门用来保存数据的，里面有三个方法会经常使用

　　　　open_spider(self, spider) 当爬虫被打开时使用

　　　　process_item(self, item , spider) 当爬虫有item传过来时会被调用

　　　　close_spider(self, spider) 当爬虫关闭的时候会被调用

查看全文

相关阅读:
Go语言基础之字符串遍历
 Go语言基础之range
Go语言的for循环
 Go语言基础之反射
 Go语言基础之接口
 Linux编程简介
 如何使用gcc编译器
 ADS的使用
 bvp4c--语法
 어느 도시 보유 하 면 사랑 이다（事態が発生すれば、ある都市の恋はしません）【Si les villes un amour】｛If have love in a city｝

原文地址：https://www.cnblogs.com/wocaonidaye/p/12734926.html

Copyright © 2011-2022 走看看