zoukankan      html  css  js  c++  java
  • bs4 beautifullsoup网页内容选择器

    # -*- encoding:utf-8 -*-
    import requests
    from bs4 import BeautifulSoup
    r=requests.get('http://cnblogs.com/xupanfeng')
    r.encoding='utf-8'
    import io
    import sys
    import urllib.request
    sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
    html_doc=r.text
    
    soup=BeautifulSoup(html_doc)
    print(soup.title);print(soup.title.text)#取标题,取标题文本
    print(soup.p)#取B标签
    print(soup.p.has_attr('class'))#判断有没有这个属性
    print(soup.p.children)#,这个列表有一个CHILDREN方法,得到一个迭代器
    print(type(soup.p))#<class 'bs4.element.Tag'>是一个TAG对象,有一个children方法
    print('pbiaoqian')
    a=0
    for i in soup.find_all('a'):
        aii=i.attrs
        print(aii.get('href'))
        a+=1
        print(a)
    #取出所有的A标签
    print('-------')
    print(soup.find(id='link3'))#找到ID=link3的标签
    a=soup.get_text()#得到文本内容
    print(a)
    #支持CSS选择器
    soup.select('.story')#查找类名是STORY的节点
    soup.select('#link1')#查找ID是LINK1的标签
  • 相关阅读:
    嵌入式整体框架——总结
    DSP Bios记忆
    三遥
    usb设备 配置 接口 端点
    ARM, MIPS, Power PC的比较
    STM32 IAP
    FSMC 总结
    BCD码与十进制的相互转换
    读 “cortexM3” 权威指南 小记(一)
    crc校验码的16 32位 查表法 算法记载
  • 原文地址:https://www.cnblogs.com/xupanfeng/p/11690473.html
Copyright © 2011-2022 走看看