zoukankan      html  css  js  c++  java
  • Python中如何进行HTML特殊字符与Unicode代码的转换

    在处理HTML内容的时候经常会遇到&# 1405;&# 816;、<、> 这样的怪字符,一般称为HTML特殊符号,而&#后面加一串数值,则是网页中Unicode的表示形式。

    HTML特殊符号编码对照表

    通过cgi模块中的escape函数可以将常见的特殊符号转换为HTML的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。

    在网上找到一篇介绍如何进行这种反向转换的文章:Escaping HTML

    另外,如果得到的HTML代码中含有&# 1405;&# 816;这样的Unicode代码,可以使用unichr函数来进行转换:

    代码
    def unescape_word(s):
        words 
    = re.findall("&#(\d+);", s)
        
    if words:
            result 
    = unicode(s, "gb18030")
            u 
    = unicode()
            
    for word in map(int, words):
                h, l 
    = word / 0x100, word % 0x100
                u 
    = unichr(l * 0x100 + h)
                result 
    = result.replace("&#%s;" % word, u)
            result 
    = result.encode("gb18030")
        
    else:
            result 
    = s
        
    return result
  • 相关阅读:
    ByteBuffer用法总结
    内部类访问外部同名属性或者方法
    floodlight 学习(一)
    ubuntu 更改文件所有者
    python cmd 模块
    matlab 矩阵
    python操作MySQL数据库
    Win 7 下制作 mac 系统启动U盘
    Window 常用命令
    大数据扫盲
  • 原文地址:https://www.cnblogs.com/ddgg/p/1786045.html
Copyright © 2011-2022 走看看