zoukankan      html  css  js  c++  java
  • 爬虫日记-基于bs4库的HTML格式化和编码

    基于bs4库的HTML格式化和编码

    import requests
    from bs4 import BeautifulSoup
    r=requests.get('https://python123.io/ws/demo.html')
    demo=r.text
    soup = BeautifulSoup(demo,'html.parser')
    
    print(soup.prettify())
    

    我们之前在讲美味汤的时候,就已经用过一次prettify方法了,那时候没有做讲解,因为我自己都没发现,我不知道那是干什么的,只知道用了那个方法之后,爬取到的html本来是一团的,变成了长长的一条了,看上去清晰了很多。

    至于编码,prettify的编码格式是utf8,只要出现了utf8,基本上就没什么好操心的了。即使是中文的内容,他也能打印出来。

  • 相关阅读:
    python virtualenv
    ICMP
    正则表达式
    tcpdump命令
    vim命令
    IP网际协议
    链路层
    python模块学习 logging
    Angular2+如何去除url中的#
    angular5懒加载之模块划分
  • 原文地址:https://www.cnblogs.com/chanyuli/p/11403593.html
Copyright © 2011-2022 走看看