寒假大数据学习笔记九

zoukankan html css js c++ java

寒假大数据学习笔记九
　　今天开始学习scrapy，对于scrapy我的理解是这样的：假如把我以前写的Python爬虫比作无门无派的散人，scrapy就是名门正派出来的弟子，它提供了一个爬虫框架，这个框架可以完成大多数的爬虫需求，下面就是演示图（摘自百度）：

1、下载scrapy

　　linux：(sudo)pip install scrapy，可以把所有scrapy相关的依赖全部下载上。

　　Windows：只要有pip，命令同上，但最后还需要下载一个pypiwin32（如果报错ModuleNotFoundError:No module named win32api），同样使用pip下载。

2、创建scrapy项目

　　这是很麻烦的一步，因为pycharm没法创建scrapy项目，所以无论是Windows还是linux都需要使用命令创建，可以使用命令scrapy查看所有的scrapy可使用命令。

　　 scrapy genspider [项目名] [网站域名] ，切换到想创建项目的的位置，输入以上命令即可。这里我推荐使用pycharm的Terminal，因为它的默认显示的路径就是在你目前项目的路径下，所以直接用Terminal直接输入命令即可。网站域名直接输入www.后面的就可以了，例如填写baidu.com即可，因为scrapy会负责填写上http之类的前缀协议。网站域名起到的作用是限制范围，将爬虫限制到想要爬取的域名之下，不至于出现爬的爬的就跑丢的情况。

3、创建爬虫

　　进入创建的scrapy项目中，输入 scrapy crawl [爬虫名] ，就可以得到如下Python文件：
# -*- coding: utf-8 -*- import scrapy class GzbdSpider(scrapy.Spider): name = 'gzbd' allowed_domains = ['nhc.gov.cn'] start_urls = ['http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml'] def parse(self, response): pass
　　name是刚才输入的爬虫名字，名字必须唯一，因为名字是scrapy识别爬虫的唯一代码，避免出现同一scrapy项目下scrapy无法识别用户想要运行哪个爬虫的尴尬问题。同时，上述代码自己打也是没有问题的，不仅如此，连同整个scrapy项目也是一样，手动创建文件夹，文件也是可以的，只要规格和名字与用命令创建的一样就行。
查看全文

相关阅读:
重温算法第一篇：冒泡排序
 服务器报警邮件发送到QQ邮箱，但是被系统拦截
 记录MongoDB常用查询
 一次 Mysql 字符集的报错，最后让我万马奔腾！！！
Hbase 一次表异常，有一张表无法count scan 一直显示重连
 spark编译安装 spark 2.1.0 hadoop2.6.0-cdh5.7.0
有一些sql 是必须要做笔记的！！
linux 修改openfiles
在线HTTP POST/GET接口测试工具
 HBase 官方文档中文版

原文地址：https://www.cnblogs.com/YXSZ/p/12284743.html