scrapy使用笔记 - 走看看

zoukankan html css js c++ java

scrapy使用笔记
新建项目

在需要新建项目的目录下发指令
```
scrapy startproject MySpider
```
其中MySpider为工程的名字，会新建一个文件夹

进入工程目录
新建一个爬虫
```
scrapy genspider test "www.baidu.com"
```
test是爬虫名字
网址是允许爬取的网站，不需要带HTTP://

执行爬虫文件：
```
scrapy crawl test
```
test是爬虫名字

如何在pycharm下直接点RUN运行

只需要在pycharm中的Run下Edit Configurations...中做运行配置即可

这样就可以直接点RUN，看效果，不用去再输入指令了

scrapy保存信息方法（也可以管道文件内写保存）：
```
# json格式，默认为unicode编码
scrapy crawl test -o test.json
# csv 逗号表达式，可以用excel打开
scrapy crawl test -o test.csv
#xml格式
scrapy crawl test -o test.xml
```
工程内的文件总结：
- items.py 主要声明的类的键s
- spiders文件夹下写爬虫，爬取数据 yield item返回给管道
- pipelines.py 获取到item处理，可以做保存处理等
- settings.py 可以使能管道等设置信息
查看全文

相关阅读:
爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐
 以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』
python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况
 详细实战教程！部署Flask网站+域名访问+免费https证书
 王者荣耀白晶晶皮肤1小时销量突破千万！分析网友评论我发现了原因
 python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影...
python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！
Nanopore sequencing and assembly of a human genome with ultra-long reads
Genome Sequencing and Assembly by Long Reads in Plants
SiLiCO: A Simulator of Long Read Sequencing in PacBio and Oxford Nanopore

原文地址：https://www.cnblogs.com/Mysterious/p/8965016.html

Copyright © 2011-2022 走看看