今日系统学习了python的bs4以及xpath解析:
bs4解析
1.实例化BeautifulSoup对象,将页面的原码数据加载。
2.通过BeautifulSoup的属性与方法进行定位。
soup.tagName 如soup.a获取第一个a标签
soup.find(tagName)等同于soup.tagName
soup.find('div',class_='song')定位到class=song的div
soup.find_all(tagName)符合要求的所以标签
select通过类选择器选择标签
通过text,string get_text()可获取文本 string为直系的文本
通过soup.a['href']可获取属性值。
xpath解析
实例化一个etree对象加载页面原码
调用etree对象xpath方法结合xpath表达式实现标签定位 会返回Element对象
/表示从根节点定位,一个层级
//表示从任意节点定位,多个层级
//div[@class="song"]获取class为song的div
/p[1]通过索引获取,从1开始
/text()获取标签文本,直系
//text()获取标签的所有文本
/@src 获取src属性