zoukankan      html  css  js  c++  java
  • python(22)总结下最近遇到的编码问题

    最近爬取,或者解析网页是总是遇到编码问题(我的版本:python2.7)

    一、常见异常:UnicodeEncodeError: 'ascii' codec can't encode character u'xb4' in position 0: ordinal not in range(128)

    常见解决方案:在代码头添加如下文件

    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

    有时也会遇到字符转换的问题:

    >>> str(u'')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeEncodeError: 'ascii' codec can't encode character u'u6211' in position 0: ordinal not in range(128)

    解决方法如下:

    >>> str(u''.encode('utf-8'))
    'xe6x88x91'

    二、在爬取网页进行解析的时候,遇到中文需要存储的,一般要先看一下中文是什么格式的,如果是unicode则需要进行转码

    xx = xxx.encode('utf-8')
    f.write(xx)

    注:以上解决方案有所借鉴其他博友,未能找到源博

  • 相关阅读:
    回溯算法之素数环
    回溯算法之迷宫问题
    回溯算法之0-1背包问题
    贪心算法之搬桌子问题
    贪心算法之背包问题
    动态规划之收集苹果
    动态算法
    c#数和二叉树
    c# 排序算法
    c#栈的习题2
  • 原文地址:https://www.cnblogs.com/lovychen/p/5780150.html
Copyright © 2011-2022 走看看