zoukankan      html  css  js  c++  java
  • html 网页源码解析:bs4中BeautifulSoup

    from bs4 import BeautifulSoup

    result=requests.request("get","http://www.baidu.com")
    result.encoding="utf-8" 
    print(result.text)         #获取源码
    soup=BeautifulSoup(result.text,"html.parser")      #解析html对象,并赋值给soup


    soup.title        #获取网页第一个标签为“title”内容
    soup.title.string)     #获取第一个标签“title”的纯字符串内容
    soup.prettify()      #获取html网页源码
    soup.input["name"]    #获取网页第一个标签为“input”内name的属性
    soup.input.name      #获取标签为input的名字,其实就是“input”
    soup.input.attrs       #取网页第一个标签为“input”内所有属性
    soup.input["name"]="test"      #修改标签内的属性
    del soup.input["name"]         #删除标签内的属性
    soup.input["name2"]="wq123"     #新增标签内的属性
    soup.head.contents      #获取标签为head的内容
    list(soup.head.children)      #获取标签为head的内容,与上面一致
    list(soup.head.descendants)      #获取标签为head的内容(前面与上面一致,加上-1位号为title内容)
    soup.head.parent       #获取标签为head父节点所有内容
    soup.head.parent.parent     #获取标签为head父节点的父节点所有内容
    soup.head.next_sibling       #获取标签head同级下一个兄弟节点
    soup.head.previous_sibling      #获取标签head同级上一个兄弟节点
    list(soup.head.next_siblings)      #获取标签head同级下一个兄弟节点存储为生成器
    list(soup.head.previous_siblings)      #获取标签head同级上一个兄弟节点存储为生成器
    soup.find_all("a",class_="js_a_so")        #获取标签为a,class属性为"js_a_so"的所有标签对象  

  • 相关阅读:
    Dynamics CRM安装教程一:域环境准备
    C#判断日期是否合法
    Visual Studio 2015 无法加载.Net FrameWork4.6.2
    Dynamics CRM产生公共签名,避免每次插件换环境重新输入签名密钥账号密码
    Dynamics CRM使用JS隐藏自定义按钮
    <3>Python开发——列表(list)
    <2>Python开发——字符串(str)
    <1>Python开发——基础入门
    Sed命令详解
    国内搭建Minikube测试环境
  • 原文地址:https://www.cnblogs.com/whitemouseV2-0/p/11288968.html
Copyright © 2011-2022 走看看