zoukankan      html  css  js  c++  java
  • Python爬网常见方法:find及find_all的使用方法

    第一步:

    创建一个Html5文件:

    第二步:

    代码如下:

    import re
    from bs4 import BeautifulSoup
    htmlDoc='''<!DOCTYPE html><html><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>标题</title><link rel="stylesheet" href=""></head><body><h2>航天大学</h2><ol><li>abc</li><li id="myid">bbb</li><li>ccc</li><li class="myred">ddd</li><li class="myred">eee</li><li data-x="cs">fff</li><li>ggg</li><li>hhh</li><li>iii</li></ol></body></html>'''
    soup = BeautifulSoup(htmlDoc, "html.parser")  
    print(soup.prettify())
    print(soup.find_all(re.compile("^me")))
    print(soup.find_all(attrs={"data-x":'cs'}))
    print(soup.find(id="myid"))
    print(soup.find_all(class_="myred"))
    print(soup.find_all(text="ccc"))
    lis=soup.find_all("li")
    for li in lis:
        print(li.string)
  • 相关阅读:
    typescript 装饰器
    typescript 中的模块
    深入理解typeScript中的泛型类
    泛型 泛型类
    vue跨域
    我喜欢的网站
    vuex
    路由导航守卫
    最多显示两行
    git命令
  • 原文地址:https://www.cnblogs.com/exesoft/p/13230778.html
Copyright © 2011-2022 走看看