zoukankan      html  css  js  c++  java
  • scrapy的cmdline命令和其文件写入乱码问题

    启动爬虫的的cmdline命令和文件下载编码问题解决

    1.启动爬虫的命令为: scrapy crawl spidername(爬虫名)

    2.我们还可以通过下述方式来启动爬虫

    步骤一:创建一个.py文件。startspider.py(这里文件的名称可以自己给定)

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    from scrapy.cmdline import execute
    # 方式一:注意execute的参数类型为一个列表
    execute(['scrapy crawl spidername'.split())
    # 方式二:注意execute的参数类型为一个列表,保存文件为(shujvtable.json) 
    execute(['scrapy','crawl','lagouspider','-o','shujvtable.json'])
    
    

    步骤二:通过python startspider.py来运行此文件即可

    scrapy 爬取数据保存为本地JSON文件 - 编码问题

    保存 json 文件 命令行启动如下:

    scrapy crawl 程序名 -o item.json
    

    上面保存的json文件 中文内容 会是 二进制字符,使用如下命名进行编码:

    scrapy crawl 程序名 -o item.json -sscrapy crawl 程序名 -o item.json -s FEED_EXPORT_ENCODING=UTF-8
    

    也可以在settings.py 文件中设置添加(推荐)

    FEED_EXPORT_ENCODING = 'UTF8'
    
  • 相关阅读:
    P4213【模板】杜教筛
    【SDOI2006】线性方程组
    【AHOI2018】排列
    【NOI2001】炮兵阵地
    【NOIP2012】疫情控制
    【AHKOI2017】rexp
    【十二省联考2019】春节十二响
    【TJOI2014】匹配
    【AT2645】Exhausted?
    P3809 【模板】后缀排序
  • 原文地址:https://www.cnblogs.com/wailaifeike/p/10205285.html
Copyright © 2011-2022 走看看