zoukankan      html  css  js  c++  java
  • BeautifulSoup的编码处理( zhuan)

    BeautifulSoup的编码处理

    BeautifulSoup内部使用的是Unicode,BeautifulSoup会自动检测输入文件的编码类型将其转换为Unicode。

    BeautifulSoup编码检测顺序

    BeautifulSoup按下面的顺序检测编码:

    1. 创建Soup对象时传递的 fromEncoding 参数;
    2. XML/HTML文件自己定义的编码;
    3. 文件开始几个字节所表示的编码特征,此时能判断的编码只可能是以下编码之一:UTF-*,EBCDIC,和ASCII。
    4. 如果你安装了chardetBeautifulSoup会用chardet检测文件编码。
    5. UTF-8
    6. Windows-1252

    BeautifulSoup的源文件中有这么一句代码:

    DEFAULT_OUTPUT_ENCODING = "utf-8"

    说明BeautifulSoup默认输出编码是utf-8编码,大家在使用的时候需要注意这个。

    BeautifulSoup中编码处理函数

    BeautifulSoup中的originalEncoding变量可以给出BeautifulSoup检测出的文件编码。

    import urllib2
    from BeautifulSoup import BeautifulSoup
     
    doc = urllib2.urlopen("http://www.pythonclub.org/")
    soup = BeautifulSoup(doc)
    soup.originalEncoding
    #u'utf-8'

    BeautifulSoup处理中文编码

    一个不会敲代码的程序员
  • 相关阅读:
    Swift
    Swift
    Swift
    Swift
    Swift
    Swift
    Swift
    C++生产和使用的临时对象
    RecyclerView0基于使用
    Docker创建MySQL集装箱
  • 原文地址:https://www.cnblogs.com/hitwtx/p/2487075.html
Copyright © 2011-2022 走看看