scrapy中XMLFeedSpider

爬取案例：

目标网站：

url = 'http://www.chinanews.com/rss/scroll-news.xml'

页面特点：

先创建爬虫项目：

也可以查看爬虫类：

创建xmlFeed 爬虫可以用：

scrapy genspider -t xmlfeed cnew  chinanews.com

2. 或可以先创建普通爬虫，再将普通的scrapy爬虫类改为XMLFeedSpider 爬虫类

该爬虫代码：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import XMLFeedSpider
from ..items import FeedItem
class NewsSpider(XMLFeedSpider):
    name = 'news'
    #allowed_domains = ['www.chinanews.com']
    start_urls = ['http://www.chinanews.com/rss/scroll-news.xml']
    #iterator = 'itetnodes'
    #itertag = 'item'


    def parse_node(self, response, node):

        # item = FeedItem()
        item ={}
        item['title'] = node.xpath('title/text()').extract_first()
        item['link'] = node.xpath('link/text()').extract_first()
        item['desc'] =node.xpath('description/text()').extract_first()
        item['pub_date'] = node.xpath('pubDate/text()').extract_first()

        print(item)

        yield item

3. 将settings中的配置

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

4. 启动爬虫

scrapy crawl news --nolog

5.爬取效果

查看全文

相关阅读:
.htaccess文件首行options +followsymlinks作用
 Limit结合使用SQL_calc_found_rows来提高子句的灵活性
 正则表达式基础语法
 left jion时，on和where条件的区别
 【解决方案】RTMP推流网关平台EasyRTMPlive在直播商品生产过程中的应用
 【开发记录】视频智能组网平台EasyNTS上云网关流量监控曲线图日期显示优化
 TSINGSEE青犀视频云边端协同解决方案如何查看有多少视频流同时录像或直播？
RTMP推流组件EasyRTMPAndroid同时推音频流和视频流时为什么会出现画面不动的情况？
【BUG修复】网络映射/端口穿透/视频组网服务/EasyNTS上云网关前端显示Disconnected问题排查
 【解决方案】互联网直播系统RTMP推流网关平台EasyRTMPlive在幼儿园家长直播中的应用

原文地址：https://www.cnblogs.com/knighterrant/p/10743180.html