oracle的全文索引

zoukankan html css js c++ java

oracle的全文索引
1、查看oracle的字符集
SQL> select userenv('language') from dual; USERENV('LANGUAGE') ---------------------------------------------------- SIMPLIFIED CHINESE_CHINA.ZHS16GBK
2、建全文索引的语句
--确认当前用户拥有CTX_DLL的权限；用DBA权限账号登录执行下句；
grant execute on ctx_ddl to cqwgh;

--chinese_vgram_lexer:专门的汉语分析器，支持所有汉字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8) BEGIN ctx_ddl.create_preference ('rjbxxgy_lexer', 'chinese_vgram_lexer'); END; CREATE INDEX idx_rjbxxgy ON gisdata.t_rjbxxgy(qwsy) INDEXTYPE IS ctxsys.CONTEXT PARAMETERS( 'lexer rjbxxgy_lexer'); BEGIN ctx_ddl.sync_index ('idx_rjbxxgy', '30M'); END; ------------------------------------------------------------------------------------------ select * from user_indexes where table_name ='WGH_T_KEEPERSINFO_SUM'; --创建词法分析器 BEGIN ctx_ddl.create_preference ('KEEPERSINFOSUM_lexer', 'chinese_lexer'); END; --创建索引 CREATE INDEX IDX_KEEPERSINFOSUM ON WGH_T_KEEPERSINFO_SUM(CONTENTS) INDEXTYPE IS ctxsys.CONTEXT PARAMETERS( 'lexer KEEPERSINFOSUM_lexer'); --同步索引 BEGIN ctx_ddl.sync_index ('IDX_KEEPERSINFOSUM', '30M'); END; --优化索引 begin ctx_ddl.optimize_index('IDX_KEEPERSINFOSUM','FULL'); end; --删除词法分析器 begin ctx_ddl.drop_preference('KEEPERSINFOSUM_lexer'); end; --删除索引 drop index IDX_KEEPERSINFOSUM force;
3、理论说明

　　Oracle实现全文检索，其机制其实很简单。即通过Oracle专利的词法分析器(lexer),将文章中所有的表意单元(Oracle 称为 term)找出来，记录在一组以dr$开头的表中，同时记下该term出现的位置、次数、hash值等信息。检索时，Oracle从这组表中查找相应的term，并计算其出现频率，根据某个算法来计算每个文档的得分(score),即所谓的‘匹配率’。而lexer则是该机制的核心，它决定了全文检索的效率。Oracle针对不同的语言提供了不同的lexer,而我们通常能用到其中的三个：

　　basic_lexer:针对英语。它能根据空格和标点来将英语单词从句子中分离，还能自动将一些出现频率过高已经失去检索意义的单词作为‘垃圾’处理，如if,is等，具有较高的处理效率。但该lexer应用于汉语则有很多问题，由于它只认空格和标点，而汉语的一句话中通常不会有空格，因此，它会把整句话作为一个term,事实上失去检索能力。以‘中国人民站起来了’这句话为例，basic_lexer分析的结果只有一个term,就是‘中国人民站起来了’。此时若检索‘中国’，将检索不到内容。

　　chinese_vgram_lexer:专门的汉语分析器，支持所有汉字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8 )。该分析器按字为单元来分析汉语句子。‘中国人民站起来了’这句话，会被它分析成如下几个term:‘中’，‘中国’，‘国人’，‘人民’，‘民站’，‘站起’，起来’，‘来了’，‘了’。可以看出，这种分析方法，实现算法很简单，并且能实现‘一网打尽’，但效率则是差强人意。

　　chinese_lexer:这是一个新的汉语分析器，只支持utf8字符集。上面已经看到，chinese vgram lexer这个分析器由于不认识常用的汉语词汇，因此分析的单元非常机械，像上面的‘民站’，‘站起’在汉语中根本不会单独出现，因此这种term是没有意义的，反而影响效率。chinese_lexer的最大改进就是该分析器能认识大部分常用汉语词汇，因此能更有效率地分析句子，像以上两个愚蠢的单元将不会再出现，极大提高了效率。但是它只支持utf8,如果你的数据库是zhs16gbk字符集，则只能使用笨笨的那个Chinese vgram lexer。如果不做任何设置，Oracle缺省使用basic_lexer这个分析器。

4、使用方法
select * from WGH_T_KEEPERSINFO_SUM where contains(contents,'李敏')>0;
5、说明

　　CHINESE_VGRAM_LEXER使用的保守分词方法，不求有功但求无过。对所有的词都可以查询到。不过效率方面就有不足了。所有的分词结果都可以在表DR$ISSUE_INDEX$I中看到。
　　oracle Text进行中文搜索必须指定lexer 参数。如果追求效率那么使用CHINESE_LEXER,如果追求准确度那么使用CHINESE_VGRAM_LEXER。

参考资料：

http://zzy603.iteye.com/blog/1152331

http://blog.csdn.net/aqszhuaihuai/article/details/6601543
查看全文

相关阅读:
【工具篇】利用DBExportDoc V1.0 For MySQL自动生成数据库表结构文档(转
 PHP Client for Mysql Binlog
MySQL的binlog日志恢复（转）
Linux 普通进程后台进程守护进程(转)
实战：MySQL Sending data导致查询很慢的问题详细分析(转)
mysql索引无效且sending data耗时巨大原因分析
 阿里云-DRDS（转）
MySQL查看SQL语句执行效率(转)
nginx php-fpm 输出php错误日志（转）
Golang指针基本介绍及使用案例

原文地址：https://www.cnblogs.com/bingya/p/3291465.html