zoukankan      html  css  js  c++  java
  • 【解析归纳】常用解析策略

    CSS选择器

    XPath

    from lxml import etree
    
    html = etree.parse('./test.html', etree.HTMLParser())  # 加载目标HTML文档
    # 定位节点
    result = html.xpath('//span')  # 常规节点搜索,返回值为节点列表
    result = html.xpath('//span[@class="xxx"]')  # 在搜索时可以利用@进行属性过滤
    # 获取信息
    result = html.xpath('//span[@class="xxx"]/text()')  # 获得节点内的文本
    result = html.xpath('//span/@class')  # 获得节点属性
    # 高级过滤(函数过滤)
    result = html.xpath('//span[contains(@class, "li")]')  # 搜索属性class中包含字符"li"的span节点
        # ⬆上面这种方式在某个节点的某个属性有多个值时经常用到,如某个节点的class属性通常有多个
    result = html.xpath('//span[contains(@class, "li") and @name="item"]')  # 多属性匹配
    

    Beautiful Soup

    • Beautiful Soup是在其他解析器(包括lxml)的基础之上构建的强大的python解析工具
    • Beautiful Soup 4 Document
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html_doc, 'lxml')  # 初始化soup对象,第一个参数为目标HTML文档,第二个参数为基础解析库
    # print(soup.prettify())  # prettify()可以把要解析的字符串以标准格式输出
    
    # 【用法示例】
    print(soup.title)
    print(soup.title.name)
    print(soup.title.string)
    print(soup.title.parent.name)
    print(soup.p)
    print(soup.p['class'])
    print(soup.a)
    print(soup.find_all('a'))
    print(soup.find(id="link3"))
    for node in soup.find_all('a'):
        print(node.get('href'))
    # 更多用法请参考文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#
    
  • 相关阅读:
    Java并发基础知识点总结
    Java中的可重入锁(2)
    Java中的可重入锁
    多线程的共享变量的内存不可见性
    JavaWeb 案例3— Cookie案例
    JavaWeb 案例2—response案例
    JavaWeb 之 三层架构(MVC架构):软件设计架构
    JavaWeb 之 备用9
    JavaWeb 之 备用6
    JavaWeb 之 备用7
  • 原文地址:https://www.cnblogs.com/lokvahkoor/p/10756947.html
Copyright © 2011-2022 走看看