zoukankan      html  css  js  c++  java
  • spider基础

    1、爬虫框架过程:
      1、创建项目
          scrapy startproject yangguang

      2、创建爬虫
          scrapy genspider yg 域名

        创建 crawlspider
          scrapy genspider -t crawl csdn csdn.com

      2、运行爬虫
          scrapy crawl  **

    2、什么是日志等级?
        logging模块,可以输出到屏幕,可以保存到本地

      1. logging.CRITICAL - for critical errors (highest severity)

      2. logging.ERROR - for regular errors

      3. logging.WARNING - for warning messages

      4. logging.INFO - for informational messages

      5. logging.DEBUG - for debugging messages (lowest severity)

       动态显示log
            tail -f xxx.log

    3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
      也可以用来测试XPath表达式
      使用方法:
        scrapy shell http://www.itcast.cn/channel/teacher.shtml

        dir(scrapy)

      response.url:      当前响应的url地址
      response.request.url: 当前响应 对应的请求的url地址

      response.headers:   响应头
      response.body:        响应体,也就是html代码,默认是byte类型
      response.requests.headers:当前响应的请求头

    life is short,i need python
  • 相关阅读:
    MapServer:地图发布工具
    hdu1054(二分图匹配)
    hdu 5091(线段树+扫描线)
    hdu1828(线段树+扫描线)
    hdu2847(暴力)
    hdu1052(田忌赛马 贪心)
    hdu1051(LIS | Dilworth定理)
    hdu1050(贪心)
    poj 2773(容斥原理)
    hdu 1044(bfs+状压)
  • 原文地址:https://www.cnblogs.com/lvhonglei-python/p/7582840.html
Copyright © 2011-2022 走看看