python中截取中文字符串乱码 - 走看看

zoukankan html css js c++ java

python中截取中文字符串乱码

python对于string的截取是 str[start,end]

但是中文字符却显示乱码，让人莫名奇妙的。这个坑琢磨了半天，解决办法是改为unicode格式。
unicode格式与str格式的转换关系参考

乱码问题引申 python 中string和unicode

一 string类型的字符串拼接

先查看英文，可以看到他们截取是正确的。

inter='hello world'

repr(inter)

list(inter)

inter[2:4]

当存在中文字符时，却不能正确解析了，

zw='静夜思abc d'

repr(zw)

list(zw)

zw[2:5]#截取字符串

zw[1:4]

查看一下控制台的编码格式，可以看到是utf-8编码。当然，str还可以用其他编码。

import charade

det=charade.detect(zw)

print det

{'confidence': 0.87625, 'encoding': 'utf-8'}

页面是用utf-8编码的。

解决方法，使用unicode进行编码。下面看看他们之间的区别

二 unicode类型的字符串拼接

当为英文时，区别不大

en=u'hello'

repr(en)

list(en)

en[2:3]

中文夹杂英文时，能查看出，list是按字拆分的

zw=u'静夜思ab d'

repr(zw)

list(zw)

zw[2:3]

由此可以看出转换为unicode进行截取正确，但在跟其他字符进行拼接时，需要注意字符串类型问题，str+unicode会报错~

查看全文

相关阅读:
7617:输出前k大的数
 2991:2011
7620:区间合并
 1688 求逆序对
 Magento How To Display Product Custom Option On list.phtml
大二实习使用的技术汇总（中）
codility上的问题（22）
poj 3321
使用ViewPager实现左右“无限”滑动的万年历
 数论练习专题

原文地址：https://www.cnblogs.com/q2z2012/p/7891254.html

Copyright © 2011-2022 走看看