zoukankan      html  css  js  c++  java
  • mysql全文索引

    原文

    mysql 全文索引

    概念

    通过数值比较、范围过滤等就可以完成绝大多数我们需要的查询,但是,如果希望通过关键字的匹配来进行查询过滤,那么就需要基于相似度的查询,而不是原来的精确数值比较。全文索引就是为这种场景设计的。

    你可能会说,用like + %就可以实现模糊匹配了,为什么还要全文索引?like + % 在文本比较少时是合适的,但是对于大量的文本数据检索,是不可想象的。全文索引在大量的数据面前,能比 like + % 快 N 倍,速度不是一个数量级,但是全文索引可能存在精度问题。

    你可能没有注意过全文索引,不过至少应该对一种全文索引技术比较熟悉:各种的搜索引擎。虽然搜索引擎的索引对象是超大量的数据,并且通常其背后都不是关系型数据库,不过全文索引的基本原理是一样的。

    版本支持

    开始之前,先说一下全文索引的版本、存储引擎、数据类型的支持情况

    MySQL 5.6 以前的版本,只有 MyISAM 存储引擎支持全文索引;
    MySQL 5.6 及以后的版本,MyISAM 和 InnoDB 存储引擎均支持全文索引;
    只有字段的数据类型为 char、varchar、text 及其系列才可以建全文索引。
    测试或使用全文索引时,要先看一下自己的 MySQL 版本、存储引擎和数据类型是否支持全文索引。

    mysql官方文档version:5.7

    1.创建全文索引(FullText index)

    ​ 旧版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。

    ​ 不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,所以具体信息要随时关注官网,

    1.1. 创建表的同时创建全文索引

           CREATE TABLE article ( 
             id INT AUTO_INCREMENT NOT NULL PRIMARY KEY, 
             title VARCHAR(200), 
             body TEXT, 
             FULLTEXT(title, body)  --创建联合全文索引列
           ) TYPE=MYISAM; 
    

    1.2.通过 alter table 的方式来添加

    ALTER TABLE `student` ADD FULLTEXT INDEX ft_stu_name  (`name`) ;---ft_stu_name是索引名,可以随便起
    
    ---或者:
    
    ALTER TABLE `student` ADD FULLTEXT ft_stu_name  (`name`);
    

    1.3. 直接通过create index的方式

    CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`);
    
    ---也可以在创建索引的时候指定索引的长度:
    
    CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`(20));
    

    2. 删除全文索引

    2.1. 直接使用 drop index(注意:没有 drop fulltext index 这种用法)

    DROP INDEX full_idx_name ON tommy.girl ;
    

    2.2. 使用 alter table的方式

    ALTER TABLE tommy.girl DROP INDEX ft_email_abcd;
    

    3.使用全文索引

    跟普通索引稍有不同

    使用全文索引的格式:

    MATCH (columnName) AGAINST ('string')
    

    eg:

    SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪');
    

    ​当查询多列数据时:

    ​ 建议在此多列数据上创建一个联合的全文索引,否则使用不了索引的。

    SELECT * FROM `student` WHERE MATCH(`name`,`address`) AGAINST('聪 广东');
    

    3.1. 使用全文索引需要注意的是:(基本单位是词)

    ​ 分词,全文索引以词为基础的,MySQL默认的分词是所有非字母和数字的特殊符号都是分词符(外国人嘛)

    ​ 这里推荐一篇文章:利用mysql的全文索引实现模糊查询

    ​ 3.2. MySQL中与全文索引相关的几个变量:

    ​ 使用命令:mysql> SHOW VARIABLES LIKE 'ft%'; #ft就是FullText的简写

    ​ ft_boolean_syntax + -><()~*:""&| #改变IN BOOLEAN MODE的查询字符,不用重新启动MySQL也不用重建索引
    ​ ft_min_word_len 4 #最短的索引字符串,默认值为4,(通常改为1)修改后必须重建索引文件

    ​ 重新建立索引命令:repair table tablename quick

    ​ ft_max_word_len 84 #最长的索引字符串,默认值为84,修改后必须重建索引文件

    ​ ft_query_expansion_limit 20 #查询括展时取最相关的几个值用作二次查询

    ​ ft_stopword_file (built-in) #全文索引的过滤词文件,

    具体可以参考:MySQL全文检索中不进行全文索引默认过滤词


    ​ 特别注意:50%的门坎限制(当查询结果很多,几乎所有记录都有,或者极少的数据,都有可能会返回非所期望的结果)

    ​ -->可用IN BOOLEAN MODE即可以避开50%的限制。

    ​ 此时使用全文索引的格式就变成了: SELECT * FROM student WHERE MATCH(name) AGAINST('聪' IN BOOLEAN MODE)

    ​ 更多内容请参考:MySQL中的全文检索(1)

    和常用的模糊匹配使用 like + % 不同,全文索引有自己的语法格式,使用 match 和 against 关键字,比如

    select * from fulltext_test
        where match(content,tag) against('xxx xxx');
    

    注意: match() 函数中指定的列必须和全文索引中指定的列完全相同,否则就会报错,无法使用全文索引,这是因为全文索引不会记录关键字来自哪一列。如果想要对某一列使用全文索引,请单独为该列创建全文索引。

    4. ft_boolean_syntax (+ -><()~*:""&|)使用的例子:

    4.1 + : 用在词的前面,表示一定要包含该词,并且必须在开始位置。

    eg: +Apple 匹配:Apple123,   "tommy, Apple"
    

    4.2 - : 不包含该词,所以不能只用「-yoursql」这样是查不到任何row的,必须搭配其他语法使用。

    eg: MATCH (girl_name) AGAINST ('-林志玲 +张筱雨')
    ---匹配到: 所有不包含林志玲,但包含张筱雨的记录 
    

    4.3. 空(也就是默认情况),表示可选的,包含该词的顺序较高。

     例子:
    
    `         apple banana      `找至少包含上面词中的一个的记录行
    
    `         +apple +juice`        两个词均在被包含
    
    `         +apple macintosh   `包含词 “apple”,但是如果同时包含 “macintosh”,它的排列将更高一些
    
    `         +apple -macintosh  `包含 “apple” 但不包含 “macintosh”
    

    4.4. > :提高该字的相关性,查询的结果会排在比较靠前的位置。

    4.5.< :降低相关性,查询的结果会排在比较靠后的位置。

    ​ 例子:4.5.1.先不使用 ><

    select * from tommy.girl where match(girl_name) against('张欣婷' in boolean mode);
    

    img 可以看到完全匹配的排的比较靠前

    ​ 4.5.2. 单独使用 >

    select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴' in boolean mode);
    

    img 使用了>的李秀琴马上就排到最前面了

    ​ 4.5.3. 单独使用 <

    select * from tommy.girl where match(girl_name) against('张欣婷 <不是人' in boolean mode);
    

    img 看到没,不是人也排到最前面了,这里使用的可是 < 哦,说好的降低相关性呢,往下看吧。

    ​ 4.5.4.同时使用><

    select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴 <练习册 <不是人>是个鬼' in boolean mode);
    

    img 到这里终于有答案了,只要使用了 ><的都会往前排,而且>的总是排在<的前面

    小结一下

    1. 只要使用 ><的总比没用的 靠前;

    2. 使用 >的一定比 <的排的靠前 (这就符合相关性提高和降低);

    3. 使用同一类的,使用的越早,排的越前。

    4.6. ( ):可以通过括号来使用字条件。

     eg: +aaa +(>bbb <ccc) // 找到有aaa和bbb和ccc,aaa和bbb,或者aaa和ccc(因为bbb,ccc前面没有+,所以表示可有可无),
    
    然后 aaa&bbb > aaa&bbb&ccc > aaa&ccc
    

    4.7. ~ :将其相关性由正转负,表示拥有该字会降低相关性,但不像「-」将之排除,只是排在较后面

     eg:  +apple ~macintosh  先匹配apple,但如果同时包含macintosh,就排名会靠后。
    

    4.8. * :通配符,这个只能接在字符串后面

     MATCH (girl_name) AGAINST ('+*ABC*')  #错误,不能放前面
    
     MATCH (girl_name) AGAINST ('+张筱雨*')  #正确
    

    4.9. " " :整体匹配,用双引号将一段句子包起来表示要完全相符,不可拆字。

     eg:  "tommy huang" 可以匹配  tommy huang xxxxx  但是不能匹配 tommy is huang。
    

    5.补充:Windows下无法修改 ft_min_word_len的情况

    5. 1. 使用cmd打开 services.msc

    ​ 找到你的 MySQL服务,右键Properties,找到你的my.ini所在的路径

    img

    5.2. 停止MySQL,在my.ini中增加 ft_min_word_len = 1,重启MySQL

    ​ 然后使用命令 show variables like 'ft_min_word_len'; 查看是否生效了

    参考:
    链接1
    链接2

  • 相关阅读:
    [原]zoj3772--【水题】线段树区间查询+矩阵乘法
    站立会议报告(5)
    团队博客(8)
    站立会议报告(4)
    团队博客(7)
    站立会议报告(3)
    团队博客(6)
    站立会议报告(2)
    团队博客(5)
    团队博客(4)
  • 原文地址:https://www.cnblogs.com/nxzblogs/p/11736766.html
Copyright © 2011-2022 走看看