zoukankan      html  css  js  c++  java
  • PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

    scrapy 常用命令

     startproject  创建一个新的工程 scrapy startproject <name>[dir]

     genspider    创建一个爬虫        scrapy genspider  [options]<name><domain>

     settings   获得爬虫的配置信息scrapy settings [options]

    crawl           运行一个爬虫    scrapy crawl <spider>

    list       列出工程中所有爬虫 scrapy list

    shell            启动URL调试命令行 scrapy shell[url]

    一个工程是一个最大的单元,一个project 中 ,可以有多可 spider模块

    命令行逻辑

    修改后的spider

    # -*- coding: utf-8 -*-
    import scrapy

    # 这里有继承关系,scrapy.Spider

    class DemoSpider(scrapy.Spider):
    name = "demo"
    #allowed_domains = ["python123.io"]
      
    start_urls = ['http://python123.io/ws/demo.html']
    #面向对象中类所属方法的标记
    def parse(self, response):
    fname=response.url.split('/')[-1]
    with open(fname,"wb") as f:
    f.write(response.body)
    self.log("Saved file %s."%fname)

     def parse 中是解析网站内容的解析方法

     url_strat  启动的时候初始的页面

    start_requests(self):

      这个作为一个生成器,对他的调用每次返回一个url连接

    爬虫的使用步骤

    1.创建一个工程与spider 模板 

    2. 编写Spider 

    3.编写Item Pipeline 

    4.优化配置策略

    基本类

    Request     表示一个Request // 一个http请求

    由spider 生成 由download 执行

    有几个属性或方法

     .url 

    .method  GET POST 

    .headers 字典类型的请求头

    .body    请求内容的啊主题

    .meta  用户添加的信息为,再scrapy内部中使用

    .copy() 复制该请求

    Response     

    .url   返回信息关联的url 

    .statys 表示返回状态吗

    .header response 对应的头部信息

    .body response 对应的内容信息

    .flags 对应的标记

    .request 对应的request 方法

    .copy()  复制该响应

    Item   

    由Spider 生成 ,由 

    类字典类型,可以按照字典类型使用

    风转正字典键值对

    支持多种HTML 提取方法

    Beatutiful Soup 

    lxml

    re

    XPath Seletor

    css Seletor

    <HTML>.css("a::attr(hred)").extract()

         标签名称           标签属性

  • 相关阅读:
    转:浅谈图片服务器的架构演进
    转:Spring AOP详解
    转:Spring AOP 注解方式实现的一些“坑”
    spring AOP自定义注解方式实现日志管理
    spring的普通类中如何取session和request对像
    spring session
    转:通过Spring Session实现新一代的Session管理
    转:一个Restful Api的访问控制方法(简单版)
    Python : 什么是*args和**kwargs[转载]
    tornado项目注意点
  • 原文地址:https://www.cnblogs.com/sfzyk/p/6599280.html
Copyright © 2011-2022 走看看