zoukankan      html  css  js  c++  java
  • spider基础

    1、爬虫框架过程:
      1、创建项目
          scrapy startproject yangguang

      2、创建爬虫
          scrapy genspider yg 域名

        创建 crawlspider
          scrapy genspider -t crawl csdn csdn.com

      2、运行爬虫
          scrapy crawl  **

    2、什么是日志等级?
        logging模块,可以输出到屏幕,可以保存到本地

      1. logging.CRITICAL - for critical errors (highest severity)

      2. logging.ERROR - for regular errors

      3. logging.WARNING - for warning messages

      4. logging.INFO - for informational messages

      5. logging.DEBUG - for debugging messages (lowest severity)

       动态显示log
            tail -f xxx.log

    3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
      也可以用来测试XPath表达式
      使用方法:
        scrapy shell http://www.itcast.cn/channel/teacher.shtml

        dir(scrapy)

      response.url:      当前响应的url地址
      response.request.url: 当前响应 对应的请求的url地址

      response.headers:   响应头
      response.body:        响应体,也就是html代码,默认是byte类型
      response.requests.headers:当前响应的请求头

    life is short,i need python
  • 相关阅读:
    Python封装发送信息到钉钉群
    centos 7.6 安装php70
    小米5s plus刷机
    centos 7 安装webmin
    交易开拓者旗舰版(TB旗舰版)软件升级中如何迁移用户数据
    centos 7.6 修改vim配色方案
    centos 7.0 读写ntfs分区
    centos iptables 数据转发
    centos 7.6 配置VNC
    win下maridb 10.1.8下主从复制配置
  • 原文地址:https://www.cnblogs.com/lvhonglei-python/p/7582840.html
Copyright © 2011-2022 走看看