BeautifulSoup的编码处理( zhuan) - 走看看

zoukankan html css js c++ java

BeautifulSoup的编码处理( zhuan)
BeautifulSoup的编码处理

BeautifulSoup内部使用的是Unicode，BeautifulSoup会自动检测输入文件的编码类型将其转换为Unicode。

BeautifulSoup编码检测顺序
BeautifulSoup按下面的顺序检测编码：

创建Soup对象时传递的 fromEncoding 参数；

XML/HTML文件自己定义的编码；

文件开始几个字节所表示的编码特征，此时能判断的编码只可能是以下编码之一：UTF-*，EBCDIC，和ASCII。

如果你安装了chardet，BeautifulSoup会用chardet检测文件编码。

UTF-8

Windows-1252

在BeautifulSoup的源文件中有这么一句代码：

DEFAULT_OUTPUT_ENCODING = "utf-8"

说明BeautifulSoup默认输出编码是utf-8编码，大家在使用的时候需要注意这个。
BeautifulSoup中编码处理函数
BeautifulSoup中的originalEncoding变量可以给出BeautifulSoup检测出的文件编码。

import urllib2 from BeautifulSoup import BeautifulSoup doc = urllib2.urlopen("http://www.pythonclub.org/") soup = BeautifulSoup(doc) soup.originalEncoding #u'utf-8'
BeautifulSoup处理中文编码
一个不会敲代码的程序员
查看全文

相关阅读:
bzoj2876 [Noi2012]骑行川藏
 关于线性基的一些理解
 bzoj2115 [Wc2011] Xor
bzoj2884 albus就是要第一个出场
 bzoj2460 [BeiJing2011]元素
 bzoj2005 [Noi2010]能量采集
 关于积性函数的一些理解
 bzoj4300 绝世好题
 Servlet—文件上传
 JNDI—目录接口名

原文地址：https://www.cnblogs.com/hitwtx/p/2487075.html

Copyright © 2011-2022 走看看