zoukankan      html  css  js  c++  java
  • jieba分词(3)

    jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码:

    #-*- coding:utf-8 -*-
    from __future__ import unicode_literals
    import jieba
    
    print('-'*40)
    print(' 默认模式')
    print('-'*40)
    
    result = jieba.tokenize('永和服装饰品有限公司')
    for tk in result:
        print "word %s		 start: %d 		 end:%d" % (tk[0],tk[1],tk[2])
    
    print '-'*40
    print ' 搜索模式'
    print '-'*40
    
    result = jieba.tokenize('永和服装饰品有限公司', mode='search')
    for tk in result:
        print "word %s		 start: %d 		 end:%d" % (tk[0],tk[1],tk[2])

    运行结果为:

    ----------------------------------------
     默认模式
    ----------------------------------------
    word 永和         start: 0          end:2
    word 服装         start: 2          end:4
    word 饰品         start: 4          end:6
    word 有限公司         start: 6          end:10
    ----------------------------------------
     搜索模式
    ----------------------------------------
    word 永和         start: 0          end:2
    word 服装         start: 2          end:4
    word 饰品         start: 4          end:6
    word 有限         start: 6          end:8
    word 公司         start: 8          end:10
    word 有限公司         start: 6          end:10
  • 相关阅读:
    反编译工具
    3.25Java变量
    标识符
    OMS系统
    java打印方法区别
    注释
    写代码时候要注意的两个点
    python_pracyoce_day1
    SKU和SPU
    文档注释
  • 原文地址:https://www.cnblogs.com/ybf-yyj/p/7576130.html
Copyright © 2011-2022 走看看