zoukankan      html  css  js  c++  java
  • Scrapy 教程(三)-网站解析

    有经验的人都知道,解析网站需要尝试,看看得到的数据是不是想要的,那么在scrapy中怎么尝试呢?

    调试工具-shell

    主要用于编写解析器

    命令行进入shell

    scrapy shell url

    这个命令其实是个下载器

    shell 界面

    获取数据

    解析命令 response.css('title'),验证获取的数据正确与否

    退出shell

    exit即可

    用法2

    直接输入 scrapy shell 命令,进入shell模式

    用法3

    实际上在shell中编写“选择器表达式”也是要借助浏览器的,但是直接用浏览器打开网页用程序访问到的response可能不同,因为有动态页面,所以需要用浏览器打开程序访问到的response

    view(response) 命令就是用浏览器打开response;实际上是一个本地的html文件

    此时我们注意到:shell 界面中有个 Userful shortcuts,包含了几个命令,其中包含了view(response), 还有上例中的 fetch(req)

    css 选择器

    3个函数:response.css('css表达式')、extract()、extract_first()

    3个提取内容:标签、标签属性、标签内容

    标签提取

    css 表达式为标签

    response.css('title')   获取 title 标签 ,其他标签方法相同,如body 、div 、p、a等

    生成一个 Selector 列表,如上图,相当于一个选择器

    css 表达式为 id 或 class

    response.css('#id')
    response.css('.class')

    方法

    response.css('title').extract()    提取标签列表,如 ['<title>爬虫实验室 - SCRAPY中文网提供</title>']
    response.css('title').extract()[0]
    or
    response.css('title').extract_first()    获取第一个元素,如 '<title>爬虫实验室 - SCRAPY中文网提供</title>'
    response.css('title::text').extract_first()    提取title标签中的text,如 '爬虫实验室 - SCRAPY中文网提供'

     

    标签属性的提取

    css表达式为 标签名::attr(属性名)

    a::attr(href)
    img::attr(src)

    多层标签的属性

    response.css('.class a::attr(href)')
    response.css('.class #id a')

    class and id 层标签之间空格即可

    标签内容的提取

    css 表达式为 ::text

    response.css("div::text").extract()              标签的text
    response.css(".center::text").extract()         class的text
    response.css(".post-content *::text").extract()    class中所有标签的text

    * 表示所有标签

    css 选择器 高级用法

    XPath 选择器

    XPth 简介

    xpath 使用路径表达式在xml文档中选取节点。

    请看一个xml例子

    <?xml version="1.0" encoding="ISO-8859-1"?>
    
    <bookstore>
    
    <book>
      <title lang="en">Harry Potter</title>
      <author>J K. Rowling</author> 
      <year>2005</year>
      <price>29.99</price>
    </book>
    
    </bookstore>

    节点之间的关系

    父: book 是 title 的父

    子: year 是 book 的子

    同胞: book year 是同胞

    先辈:title 的先辈是 book  bookstore

    后代:bookstore 的后代是 book title 

    路径表达式

    表达式描述
    nodename 选取此节点的所有子节点。
    / 从根节点选取。
    // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
    . 选取当前节点。
    .. 选取当前节点的父节点。
    @ 选取属性。

    举例

    路径表达式结果
    bookstore 选取 bookstore 元素的所有子节点。
    /bookstore

    选取根元素 bookstore。

    注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!

    bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
    //book 选取所有 book 子元素,而不管它们在文档中的位置。
    bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
    //@lang 选取名为 lang 的所有属性。

    XPath 选择器

    3个函数:response.xpath('表达式')、extract()、extract_first()

    4个提取内容:标签、标签属性、标签内容、标签内的所有文字

    标签

    省略

    标签属性

    表达式为 @属性名

    //@href                     所有 href 
    //ol//@href                ol标签下所有 href
    //ol[@class="page-navigator"]//@href     具有某属性的标签ol下的所有href

    标签内容

    表达式为 //text()

    //ul[@class='tags-list']//a//text()

    标签内的所有文字

    表达式为 string(标签)

    提取标签及其后代的所有文字,并连在一起

    response.xpath("string(//div[@class='post-content'])").extract()

    实例

    路径表达式结果
    /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
    /bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
    /bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
    /bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
    //title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
    //title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
    /bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
    /bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

    通配符

    通配符描述
    * 匹配任何元素节点。
    @* 匹配任何属性节点。
    node() 匹配任何类型的节点。

    实例

    路径表达式结果
    /bookstore/* 选取 bookstore 元素的所有子元素。
    //* 选取文档中的所有元素。
    //title[@*] 选取所有带有属性的 title 元素。

    XPath 选择器 详细教程

    也可以用 BeautifulSoup 进行解析

  • 相关阅读:
    正则表达式练习
    Linux下文件删除的原理
    (转)linux grep 正则表达式
    linux 需要记忆的知识
    linux 常用命令
    TestNG测试方法
    TestNG配置注解
    jquery 获取和设置 select下拉框的值
    Kings(状压DP)
    Tirp(状压DP)
  • 原文地址:https://www.cnblogs.com/yanshw/p/10844750.html
Copyright © 2011-2022 走看看