zoukankan      html  css  js  c++  java
  • python3.5之输出HTML实体字符

    出  关①   徐兰

    凭山俯海古边州, 旆②影风翻见戍楼。

     马后桃花马前雪,出关争得不回头?

    [注]关,指居庸关。②旆(pèi),旌旗。

    刚刚学习用python写爬虫,实战一下。

    抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。

    这些字符去掉还不行,必须要显示出来。

    一路,百度、google最后终于找到了方法。

    特写此博文,记录下来。

    使用python中html.unescape()方法就可以输出html中的实体字符

     1 #!/usr/bin/env python
     2 # encoding: utf-8
     3 """
     4 出  关①   徐兰
     5 凭山俯海古边州, 旆②影风翻见戍楼。
     6 马后桃花马前雪,出关争得不回头?
     7 [注]①关,指居庸关。②旆(pèi),旌旗。
     8 """
     9 import html
    10 string = '[注]&#9312关,指居庸关。&#9313旆(pèi),旌旗。'
    11 print(html.unescape(string))    #[注]①关,指居庸关。②旆(pèi),旌旗。
  • 相关阅读:
    编译Android源码
    Android Studio 更新
    ANDROID:替换系统桌面
    Linux目录树与文件系统
    主引导记录MBR
    Android开发使用run-as获取应用数据
    桥接模式
    工厂方法模式
    Floyd's Cycle Detection Algorithm
    用两个stack实现一个队列
  • 原文地址:https://www.cnblogs.com/gdkl/p/5319514.html
Copyright © 2011-2022 走看看