zoukankan      html  css  js  c++  java
  • spider基础

    1、爬虫框架过程:
      1、创建项目
          scrapy startproject yangguang

      2、创建爬虫
          scrapy genspider yg 域名

        创建 crawlspider
          scrapy genspider -t crawl csdn csdn.com

      2、运行爬虫
          scrapy crawl  **

    2、什么是日志等级?
        logging模块,可以输出到屏幕,可以保存到本地

      1. logging.CRITICAL - for critical errors (highest severity)

      2. logging.ERROR - for regular errors

      3. logging.WARNING - for warning messages

      4. logging.INFO - for informational messages

      5. logging.DEBUG - for debugging messages (lowest severity)

       动态显示log
            tail -f xxx.log

    3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
      也可以用来测试XPath表达式
      使用方法:
        scrapy shell http://www.itcast.cn/channel/teacher.shtml

        dir(scrapy)

      response.url:      当前响应的url地址
      response.request.url: 当前响应 对应的请求的url地址

      response.headers:   响应头
      response.body:        响应体,也就是html代码,默认是byte类型
      response.requests.headers:当前响应的请求头

    life is short,i need python
  • 相关阅读:
    day 23 索引
    day 22 全量更新
    day 21 求贫困户
    day20 函数,同比,和基础
    知识点记录
    day 20试题
    day 16面试题
    day 13拉链数据做存储
    day 13 拉链数据批量处理
    一维,二维,三维数组,vector 初始化
  • 原文地址:https://www.cnblogs.com/lvhonglei-python/p/7582840.html
Copyright © 2011-2022 走看看