zoukankan      html  css  js  c++  java
  • spider基础

    1、爬虫框架过程:
      1、创建项目
          scrapy startproject yangguang

      2、创建爬虫
          scrapy genspider yg 域名

        创建 crawlspider
          scrapy genspider -t crawl csdn csdn.com

      2、运行爬虫
          scrapy crawl  **

    2、什么是日志等级?
        logging模块,可以输出到屏幕,可以保存到本地

      1. logging.CRITICAL - for critical errors (highest severity)

      2. logging.ERROR - for regular errors

      3. logging.WARNING - for warning messages

      4. logging.INFO - for informational messages

      5. logging.DEBUG - for debugging messages (lowest severity)

       动态显示log
            tail -f xxx.log

    3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
      也可以用来测试XPath表达式
      使用方法:
        scrapy shell http://www.itcast.cn/channel/teacher.shtml

        dir(scrapy)

      response.url:      当前响应的url地址
      response.request.url: 当前响应 对应的请求的url地址

      response.headers:   响应头
      response.body:        响应体,也就是html代码,默认是byte类型
      response.requests.headers:当前响应的请求头

    life is short,i need python
  • 相关阅读:
    APP上线碰到的问题:Non-public API usage
    点语法
    strlen、strcpy、strcat的实现
    2. I/O模型基本说明
    1. 同步、异步、阻塞、非阻塞
    8. 负载均衡请求转发实现
    7.负载均衡算法
    6. Nginx配置示例-高可用集群
    5. Nginx配置示例-动静分离
    4. Nginx配置示例-负载均衡
  • 原文地址:https://www.cnblogs.com/lvhonglei-python/p/7582840.html
Copyright © 2011-2022 走看看