爬虫scrapy框架的使用 - 走看看

zoukankan html css js c++ java

爬虫scrapy框架的使用

第一步下载scrapy模块:

　　pip install scrapy

第二步创建项目

　　在终端/cmd进入创建项目的目录:scrapy startproject douban(项目名)

　　导入pycharm

第三步创建爬虫类

　　1.在terminal中进入项目中的spiders目录:

　　输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

第四步设置

　　1.将ROBOTSTXT_OBEY = True 改为 False

　　2.打开管道:

　　ITEM_PIPELINES = {
　　'douban.pipelines.DoubanPipeline': 300,
　　}

　　3.打开该设置并修改:

　　DEFAULT_REQUEST_HEADERS = {

　　'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
　　'Accept-Language': 'en',
　　'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
　　}

第五步编写项目

　　1.在items中编写创建的爬虫中的爬虫类,爬取数据

　　2.在pipelines.python中编写管道,储存数据

　　3.运行:

　　在命令中输入: scrapy crawl douban_spider(爬虫名)

查看全文

相关阅读:
c语言几个字符串处理函数的简单实现
 各种类型排序的实现及比较
 随机洗牌算法Knuth Shuffle和错排公式
 两个栈实现队列
 面试杂题
 面试题——栈的压入、弹出顺序
 Codeforces 455A. Boredom
PAT A1049. Counting Ones (30)
Codeforces 895B. XK Segments
Codeforces 282C. XOR and OR

原文地址：https://www.cnblogs.com/Jokerguigui/p/11660579.html

Copyright © 2011-2022 走看看