scrapy爬虫框架

zoukankan html css js c++ java

scrapy爬虫框架
0x00 scrapy爬虫框架

scrapy库的安装：

可以直接使用pip install scrapy来安装，如果IDE是pycharm的话参考之前requests库的安装

scrapy爬虫框架结构：

scrapy采用5+2的结构，五个主要模块加上两个中间键

详细介绍一下各个组件：
这里需要用户去编写的是spider模块和pipeline模块，前者作为一个爬虫数据的入口，后者则是数据的出口

scrapy命令行格式：

命令：

0x01 scrapy爬虫框架实例

首先在cmd命令中新建一个scrapy的项目

这行命令就是在D盘的pycode文件夹中新建python123demo项目，接着可以直接导入pycharm中

这里可以清楚地看到项目中已经给了我们一些文件

现在项目里都是空的，所以需要我们生成一个爬虫

这一段的意思就是生成一个名为demo的爬虫，爬取的网站是python123.io

回到pycharm中，我们发现spiders文件夹下生成了一个demo.py的文件

接下来就是要配置爬虫，修改demo.py文件，这段代码实现一个网页的下载
import scrapy class DemoSpider(scrapy.Spider): name = 'demo' #allowed_domains = ['python123.io'] start_urls = ['http://python123.io/ws/demo.html'] def parse(self, response): fname = response.url.split('/')[-1] with open(fname, 'wb') as f: f.write(response.body) self.log('Saved file %s.' % fname)
接着去cmd中执行命令运行爬虫

这里可能会报错，解决办法：ModuleNotFoundError: No module named 'win32api'

安装成功后执行原来的命令，成功在当前目录下生成demo.html文件

0x01 scrapy爬虫使用

yield关键字的使用：

举个例子：要遍历连续自然数的平方可以用一下代码实现：

第一段代码使用生成器的写法，gen()函数中每次执行yield命令时，i被冻结直到下一次调用该函数，而第二种方法首先将结果全部存入列表中，当数据量过大时会严重占用存储空间，增加代码运行时间。第一种方法每次进行一次调用，当数据量大的时候速度有明显优势。

scrapy爬虫的使用：

步骤1：创建一个工程和spider模板

步骤2：编写spider

步骤3：编写item pipeline

步骤4：优化配置策略

爬虫的数据类型：

①request类：像网络上提交请求的内容。

②response类：从网络上爬取内容的封装类。

③item类：由spider产生的信息封装的类

request的属性和方法：

response类的属性和方法：

scrapy爬虫提取信息的方法：

css selector的使用
查看全文

相关阅读:
【MISC】ctf-想要种子吗？——jpg图片隐写
 【MISC】ctf-白哥的鸽子——jpg图片隐写
 关于MySQL递归查询，从子类ID查询所有父类
 关于lambdaQueryWrapper中常用方法
 Jmeter之正则表达式提取器+BeanShell断言--将返回结果导出到本地文件
 SQLMap开源渗透工具-SQLMap注入安全测试
 jmeter之配置元件-HTTP授权管理器（HTTP Authorization Manager）
Jmeter实战大全（持续更新）
Jmeter 之Ramp-up Period&固定定时器
 《从一万到一千万没有秘密》

原文地址：https://www.cnblogs.com/Ragd0ll/p/10261339.html