zoukankan      html  css  js  c++  java
  • Python处理HTML转义字符

    抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人。
    比方说一个从网页中抓到的字符串:

    html = '<abc>'
    

    用Python可以这样处理:

    import HTMLParser
    html_parser = HTMLParser.HTMLParser()
    txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
    

    如果还想转回去,可以这样:

    import cgi
    html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'
    

    来回转的功能还分了两个模块实现,挺奇怪。没找到更优美的方法,欢迎补充哈~

  • 相关阅读:
    关于产品
    Windows服务 + Quartz.NET
    C#
    C#
    URL
    前端生态系统总结
    字符串相似度
    Process Explore & Windbg
    webpack
    JS
  • 原文地址:https://www.cnblogs.com/stemon/p/6602085.html
Copyright © 2011-2022 走看看