Lucene分词初探LetterTokenizer - 走看看

zoukankan html css js c++ java

Lucene分词初探LetterTokenizer

关于分词就不多介绍了,园子里很多这样的文章.birdshover就写了一些关于分词的文章.在这里我主要深入Lucene分词工具的内部算法,希望能与大家一起交流.

Lucene与分词有关的类的结构图如下:

(图片引自:http://www.cnblogs.com/birdshover/archive/2008/08/28/1279044.html)
在本节主要讨论LetterTokenizer和CharTokenizer,实际上算法的实现是在CharTokenizer中的next()中实现的.

首先为了有个感性的认识,来看一个LetterTokenizer的例子:

Code

输出结果如下:

达梦数据库

DM

Database

LetterTokenizer中的next()方法继承自CharTokenizer.

下面将对CharTokenizer的next()方法进行详细解剖:

Code

根据程序中的注释很容易就会明白该算法的大体思想:

遍历输入字符串,根据特殊符号将输入字符串分成一个个单词,然后封装成Token返回,时间复杂度为O(n).

查看全文

相关阅读:
启动Mysql后找不到服务或出现找不到指定文件
 WEB-MVC模式图示
 Java中Map集合的遍历方式
 sun.misc.BASE64Encoder找不到jar包的解决方法
 Tomcat常用的网站发布方式
 Sql Server查询行号
 Mysql下载安装问题
 【数学】环逆序
 【搜索】【the first editoral】OpenJudge 我是最快的马
 The First Blog

原文地址：https://www.cnblogs.com/hustcat/p/1318973.html

Copyright © 2011-2022 走看看