zoukankan      html  css  js  c++  java
  • python中烦人的锟斤拷(xefxbfxbd)

    首先要知道xefxbfxbd是啥东西

    >>> u'uFFFD'.encode('utf-8')
    'xefxbfxbd'

    由此我们可以知道xefxbfxbd是utf8编码的'uFFFD',那么这个'uFFFD'是啥东西呢?

    原来是因为Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。

    >>> "xefxbfxbd".decode("utf-8")
    u'ufffd'

    所以,如果你的文本中有一些字符是unicode表示不了的,在python程序读入的时候就会转成xefxbfxbd,如果在某些地方变成了unicode,那么内部就会变成

    u'ufffd',然而你再也不能转为str了。

    如果你碰巧用到这些字符串作为字典的key,那么就会报key_error的错误了。

     

  • 相关阅读:
    初识计算机
    前端html css
    mysql高级
    mysql多表查询
    mysql数据库查询
    mysql表关系
    mysql数据类型
    mysql数据库介绍
    异步回调 协程
    GIL-全局解释器锁
  • 原文地址:https://www.cnblogs.com/qwj-sysu/p/5706721.html
Copyright © 2011-2022 走看看