Python中如何进行HTML特殊字符与Unicode代码的转换 - 走看看

zoukankan html css js c++ java

Python中如何进行HTML特殊字符与Unicode代码的转换

在处理HTML内容的时候经常会遇到&# 1405;&# 816;、<、> 这样的怪字符，一般称为HTML特殊符号，而&#后面加一串数值，则是网页中Unicode的表示形式。

HTML特殊符号编码对照表

通过cgi模块中的escape函数可以将常见的特殊符号转换为HTML的表现形式，但要转换回来，cgi模块并没有提供unescape这样的函数。

在网上找到一篇介绍如何进行这种反向转换的文章：Escaping HTML

另外，如果得到的HTML代码中含有&# 1405;&# 816;这样的Unicode代码，可以使用unichr函数来进行转换：
代码
def unescape_word(s):
    words = re.findall("&#(\d+);", s)
    if words:
        result = unicode(s, "gb18030")
        u = unicode()
        for word in map(int, words):
            h, l = word / 0x100, word % 0x100
            u = unichr(l * 0x100 + h)
            result = result.replace("&#%s;" % word, u)
        result = result.encode("gb18030")
    else:
        result = s
    return result

查看全文

相关阅读:
SelectionKey理解
 redis3.0.3集群搭建
 Centos6.5环境下安装SVN 整合Apache+SSL
没有注册类。已加载，但找不到入口点 DllRegisterServer
今日立秋
 35+开启忙而有序的日子
 jmeter的常用函数
 jmeter之java请求
 生成Webservice客户端的4种方法
 Pytest高级进阶之Fixture

原文地址：https://www.cnblogs.com/ddgg/p/1786045.html

Copyright © 2011-2022 走看看