zoukankan html css js c++ java

jieba分词(3)

jieba分词中Tokenize的使用，Tokenize主要是用来返回词语在原文的弃之位置，下面贴上代码：

#-*- coding:utf-8 -*-
from __future__ import unicode_literals
import jieba

print('-'*40)
print(' 默认模式')
print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print "word %s		 start: %d 		 end:%d" % (tk[0],tk[1],tk[2])

print '-'*40
print ' 搜索模式'
print '-'*40

result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
    print "word %s		 start: %d 		 end:%d" % (tk[0],tk[1],tk[2])

运行结果为：

----------------------------------------
 默认模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限公司         start: 6          end:10
----------------------------------------
 搜索模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限         start: 6          end:8
word 公司         start: 8          end:10
word 有限公司         start: 6          end:10

查看全文

相关阅读:
Eclipse下，修改MAVEN 中央仓库地址，解决maven下载慢问题
 C语言中头文件string的用法
 Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义
 Curl
LDAP是什么
 Linux网络基本网络配置
 vim
request,session,cookie的比较
 J2EE开发过程中遇到的问题
 实现弹出登录窗口

原文地址：https://www.cnblogs.com/ybf-yyj/p/7576130.html