zoukankan      html  css  js  c++  java
  • Python爬网常见方法:find_all与re的结合使用

    import re
    from bs4 import BeautifulSoup
    htmlDoc='''<!DOCTYPE html><html><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>标题</title><link rel="stylesheet" href=""></head><body><h2>航天大学</h2><ol><li>abc</li><li id="myid">12344</li><li>12abcd34</li><li class="myred">55aaaa555</li><li class="myred">6789eee</li><li data-x="cs">fff</li><li>ggg</li><li>hhh</li><li>6789ABCD</li></ol></body></html>'''
    soup = BeautifulSoup(htmlDoc, "html.parser")  
    print(soup.find_all(string=re.compile('航天')))
    print(soup.find_all('meta',{'charset':re.compile('utf')}))
    print(soup.find_all(string=re.compile('d')))
    print(soup.find_all(string=re.compile('D')))
    print(soup.find_all(string=re.compile('^1')))
    print(soup.find_all(string=re.compile('1ww4')))

    re

  • 相关阅读:
    堆排序算法
    二叉树的创建、遍历(递归和非递归实现)、交换左右子数、求高度(c++实现)
    hdoj1010 奇偶剪枝+DFS
    常见排序算法c++总结
    B
    C
    D
    E
    G
    F
  • 原文地址:https://www.cnblogs.com/exesoft/p/13320829.html
Copyright © 2011-2022 走看看