爬虫日记-基于bs4库的HTML格式化和编码 - 走看看

zoukankan html css js c++ java

爬虫日记-基于bs4库的HTML格式化和编码
基于bs4库的HTML格式化和编码
```
import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')

print(soup.prettify())
```
我们之前在讲美味汤的时候，就已经用过一次prettify方法了，那时候没有做讲解，因为我自己都没发现，我不知道那是干什么的，只知道用了那个方法之后，爬取到的html本来是一团的，变成了长长的一条了，看上去清晰了很多。

至于编码，prettify的编码格式是utf8，只要出现了utf8，基本上就没什么好操心的了。即使是中文的内容，他也能打印出来。
查看全文

相关阅读:
Spring Boot启动时执行初始化操作三种方法分享
 springboot自定义验证传值范围
 动态数据源玩起来
 多线程之Semaphore登录限流示例
 elementui表格自定义格式实现原理？？？
31 Days of Windows Phone | Day #5 System Theming
SQL 子查询关联查询和非关联查询性能分享
 windows phone app 发布后在市场里找不到呢。
APP Hub 应用发布失败，请问大家都是怎么设置可以成功提交哦
 WPF：Main方法到哪里去了？

原文地址：https://www.cnblogs.com/chanyuli/p/11403593.html

Copyright © 2011-2022 走看看