zoukankan html css js c++ java

scrapy持久化到Excel表格

前提条件：

防止乱码产生

ITEM_PIPELINES = {
   'xpc.pipelines.ExcelPipeline': 300,
}

方法一

1、安装openpyxl

conda install openpyxl

2、pipline

from openpyxl import Workbook


class ExcelPipeline(object):
    def __init__(self):
        # 创建excel, 填写表头
        self.wb = Workbook()
        self.ws = self.wb.active
        # 设置表头
        self.ws.append(['ID', '标题', 'URL'])

    def process_item(self, item, spider):
        # 把数据的每一项整理出来
        line = [item['pid'], item['title'], item['src']]
        # 将数据以行的形式添加到xlsx中
        self.ws.append(line)
        # 保存xlsx文件中
        self.wb.save('work.xlsx')
        return item

3、setting

ITEM_PIPELINES = {
   'xpc.pipelines.ExcelPipeline': 300,
}

方法二

scrapy crawl work -o work.csv

用Excel文件打开csv，我的会出现乱码，暂时未解决

查看全文

相关阅读:
1 Java基础知识
 2 Java中常见集合
 请求转发和重定向的区别
 Kafka之工作流程分析
 Kafka之概述
 Kafka之安装
 Oracle数据库查看用户状态
 linux压缩和解压文件命令
 JVM性能调优
 Hbase之命令

原文地址：https://www.cnblogs.com/wt7018/p/11868105.html

热门文章
排序算法---冒泡排序
 C语言按位运算符
 C语言操作符
 9 其它算法
 4 数组
 3 字符串
 2 限定性线性表——栈与队列
 5 二叉树
 1 线性表
 8 内部排序