zoukankan      html  css  js  c++  java
  • Python split 分割中文

    str8="中国 和 韩国 的区别"
    # a=str8.find("Python")
    # print a
    b=str8.find("")
    print b
    word=str8.split(" ")         #Python3 和Spark 这里可以直接正确分割中文
    print word
    for i in word:               #python 2.x 需要这样输出
        print i

    #这是关于编码的问题
    # print "-"*50
    # data=str8.decode("utf-8").encode("gb2312")
    # print type(data)
    # data2=data.decode("gb2312")
    # print type(data2)
    # print data2.split(u" ")
    # data3=data2.encode("utf-8").split(" ")
    # print data3
    # for i in data3:
    #     print i

    结果:

    7

    ['xe4xb8xadxe5x9bxbd', 'xe5x92x8c', 'xe9x9fxa9xe5x9bxbd', 'xe7x9ax84xe5x8cxbaxe5x88xab']
    中国

    韩国
    的区别
    --------------------------------------------------
    <type 'str'>
    <type 'unicode'>
    [u'u4e2du56fd', u'u548c', u'u97e9u56fd', u'u7684u533au522b']
    ['xe4xb8xadxe5x9bxbd', 'xe5x92x8c', 'xe9x9fxa9xe5x9bxbd', 'xe7x9ax84xe5x8cxbaxe5x88xab']
    中国

    韩国
    的区别


  • 相关阅读:
    基本命令
    Unicode Locale
    二进制查看编辑
    java reg
    java util
    js util
    跑到X
    [转]Linux AIO :libaio
    [转]c++ atomic操作
    [转] dpdk笔记
  • 原文地址:https://www.cnblogs.com/soyo/p/8157505.html
Copyright © 2011-2022 走看看