Python库-BeautifulSoup - 走看看

zoukankan html css js c++ java

Python库-BeautifulSoup
sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser")
方法

1.sp.title

返回网页标题

2.sp.text

返回去除所有HTML标签后的网页内容

3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs)

该函数返回值为字符串

第一个参数是标签名字，第二个是个网页属性的字典,例如:
<a href = "http://www.baidu.com" class = "sister" id = "link1">Elsie</a> sp.find("a",{"id":"link1"}) sp.find("a",{"href":"http://www.baidu.com"})
4.sp.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

第一个参数可以是多个标签名字构成的列表，例如:
sp.find(['a','b'],{"id":"link1"})
5.sp.select(selector, _candidate_generator=None, limit=None)

该函数返回值为列表

第一个参数可以是控件id值，要在引号之内加入#，例如：
t = m.select("#userAccount") # 输出 [<input id="userAccount" style="position:absolute; top:7px;" type="text" value=""/>]
第一个参数也可以是css类名，例如：
<p class ="title"><b>文件标题</b></p> datal = sp.select(".title")
6.get(属性名称)
<a href = "http://www.baidu.com" class = "sister" id = "link1">Elsie</a> datal = sp.find("a",{"id":"link1"}) print(datal.get("href")) # 输出 http://www.baidu.com
查看全文

相关阅读:
如何处理DateTime日期时间格式
 ASP.NET访问域用户(AD活动目录)信息的类
 多层代理取真实IP地址
 自动播放MP3文件
 Windows7 下用 grub4dos 安装 Ubuntu
javascript判断iphone/android手机横竖屏模式
 C#一个到多个Cookie的字符串添加到CookieCollection集合中【isGood代码】
css 文本对齐4种方法
 让VirtualBox虚拟机实现开机自动后台运行
 MSXML2, XmlHttpClass基础

原文地址：https://www.cnblogs.com/woxiaosade/p/10014134.html

Copyright © 2011-2022 走看看