zoukankan      html  css  js  c++  java
  • 爬虫:Scrapy11

    Scrapy 提供了 log 功能。可以通过 scrapy.log 模块使用。当前底层实现使用了 Twisted logging,不过可能在之后会有所变化。

    log 服务必须通过显式调用 scrapy.log.start() 来开启,以捕捉顶层的 Scrapy 日志消息。再次之上,每个 crawler 都拥有独立的 log 观察者(observer)(创建时自动连接(attach)),接收其 spider 的日志消息。

    Log Level

    Scrapy 提供 5 层 logging 级别:

    • CRITICAL - 严重错误(critical)
    • ERROR - 一般错误(regular errors)
    • WARNING - 警告信息(warning messages)
    • INFO - 一般信息(informational messages)
    • DEBUG - 调试信息(debugging messages)

    如何设置 log 级别

    您可以通过终端选项(command line option) –loglevel/-L 或 LOG_LEVEL 来设置 log 级别。

    如何记录信息(log message)

    下面给出如何使用 WARNING 级别来记录信息的例子:

    from scrapy import log
    log.msg("This is a warning", level=log.WARNING)

    在 Spider 中添加 log(Logging from Spiders)

    在 spider 中添加 log 的推荐方式是使用 Spider 的 log() 方法。该方法会自动在调用 scapy.log.msg() 时赋值 spider 参数。其他的参数则直接传递给 msg() 方法。

    scrapy.log 模块

    scrapy.log.start(logfile=None, loglevel=None, logstdout=None)

    启动 Scrapy 顶层 logger。该方法必须在记录任何顶层消息前被调用(使用模块的 msg() 而不是 Spider.log 的消息)。

    否则,之前的消息将会丢失。

    参数:

    • logfile (str) – 用于保存 log 输出的文件路径。如果被忽略,LOG_FILE 设置会被使用。如果两个参数都是 None,log 将会被输出到标准错误流(standard error)。
    • loglevel – 记录的最低的 log 级别。可用的值有: CRITICAL,ERROR,WARNING,INFO and DEBUG。
    • logstdout (boolean) – 如果为 True,所有您的应用的标准输出(包括错误)将会被记录(logged instead)。 例如,如果您调用 “print ‘hello’”,则’hello’会在 Scrapy 的 log 中被显示。 如果被忽略,则 LOG_STDOUT 设置会被使用。

    scrapy.log.msg(message, level=INFO, spider=None)

    记录信息(Log a message)。

    参数:

    • message (str) – log 的信息
    • level – 该信息的 log 级别. 参考 Log levels.
    • spider (Spider 对象) – 记录该信息的 spider. 当记录的信息和特定的 spider 有关联时,该参数必须被使用。

    scrapy.log.CRITICAL

    严重错误的 Log 级别

    scrapy.log.ERROR

    错误的 Log 级别 Log level for errors

    scrapy.log.WARNING

    警告的 Log 级别 Log level for warnings

    scrapy.log.INFO

    记录信息的 Log 级别(生产部署时推荐的 Log 级别)

    scrapy.log.DEBUG

    调试信息的 Log 级别(开发时推荐的 Log 级别)

    Logging 设置

    以下设置可以被用来配置 logging:

    • LOG_ENABLED
    • LOG_ENCODING
    • LOG_FILE
    • LOG_LEVEL
    • LOG_STDOUT
  • 相关阅读:
    2019.9.18 Unity3D与Android相互传递消息 & unity与ios相互传递消息
    2019.9.10 IEnumerable 详解C# 迭代器
    Windows Live Writer 之 代码快速插入插件
    目标管理剖析与实践– 献给追梦的人 (转)
    转:简历写法
    Linux下 输入 env 而得到的环境变量解读
    how to install tweepy
    全分布式环境下,DataNode不启动的问题解决
    几个因为hadoop配置文件不当造成的错误
    Hadoop: HDFS 格式化时,出现 “ERROR namenode.NameNode: java.io.IOException: Cannot create directory /usr/hadoop/tmp/dfs/name/current”
  • 原文地址:https://www.cnblogs.com/sufei-duoduo/p/5880988.html
Copyright © 2011-2022 走看看