Python网络爬虫与信息提取02 - 走看看

zoukankan html css js c++ java

Python网络爬虫与信息提取02
如何解析HTML页面信息标记和提取方法

BEAUTIFUL SOUP

实战项目

实例一中国大学排名爬虫Projects

BEAUTIFUL SOUP可以爬取和解析

pip install beautifulsoup4
import requests r=requests.get("http://python123.io/ws/demo.html") r.text demo=r.text

from bs4 import BeautifulSoup soup=BeautifulSoup(demo,"html.parser") print(soup.prettify())
BeautifulSoup库的理解：是解析，遍历，维护“标签树”的功能库。

BeautifulSoup类和标签树和HTML文档等价

BeautifulSoup类使标签树成一个变量，进行处理
from bs4 import BeautifulSoup soup=BeautifulSoup(demo,"html.parser") soup.title tag=soup.a
tag.attrs soup.a.name soup.a.parent.name
基于bs4遍历来获取HTML的内容

标签树的下行遍历
soup=BeautifulSoup(demo, "html.parser") soup.head soup.head.contents soup.boddy.contents len(soup.body.contents) for child in soup.body.children: print(child)
标签树的上行遍历

标签树的平行遍历(所有的平行遍历在同一个父节点下的各节点间)
查看全文

相关阅读:
CocoaPods
第一篇理论 1.7 精进－正念－正知，如理作意和觉察力
 构架稳定与可扩展的优惠券系统
 一个产品从0到1的过程
 实现实时定位
 征信比拼重点是数据和连接
 黑产
 爬虫有什么用
 爬虫应用
 甘蔗理论

原文地址：https://www.cnblogs.com/gzoof/p/7505844.html

Copyright © 2011-2022 走看看