基于bs4库的HTML格式化和编码
import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')
print(soup.prettify())
我们之前在讲美味汤的时候,就已经用过一次prettify方法了,那时候没有做讲解,因为我自己都没发现,我不知道那是干什么的,只知道用了那个方法之后,爬取到的html本来是一团的,变成了长长的一条了,看上去清晰了很多。
至于编码,prettify的编码格式是utf8,只要出现了utf8,基本上就没什么好操心的了。即使是中文的内容,他也能打印出来。