mysql全文索引

zoukankan html css js c++ java

mysql全文索引
原文

mysql 全文索引

概念

通过数值比较、范围过滤等就可以完成绝大多数我们需要的查询，但是，如果希望通过关键字的匹配来进行查询过滤，那么就需要基于相似度的查询，而不是原来的精确数值比较。全文索引就是为这种场景设计的。

你可能会说，用like + %就可以实现模糊匹配了，为什么还要全文索引？like + % 在文本比较少时是合适的，但是对于大量的文本数据检索，是不可想象的。全文索引在大量的数据面前，能比 like + % 快 N 倍，速度不是一个数量级，但是全文索引可能存在精度问题。

你可能没有注意过全文索引，不过至少应该对一种全文索引技术比较熟悉：各种的搜索引擎。虽然搜索引擎的索引对象是超大量的数据，并且通常其背后都不是关系型数据库，不过全文索引的基本原理是一样的。

版本支持

开始之前，先说一下全文索引的版本、存储引擎、数据类型的支持情况

MySQL 5.6 以前的版本，只有 MyISAM 存储引擎支持全文索引；
MySQL 5.6 及以后的版本，MyISAM 和 InnoDB 存储引擎均支持全文索引;
只有字段的数据类型为 char、varchar、text 及其系列才可以建全文索引。
测试或使用全文索引时，要先看一下自己的 MySQL 版本、存储引擎和数据类型是否支持全文索引。

mysql官方文档version：5.7

1.创建全文索引(FullText index)

旧版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。

不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引，所以具体信息要随时关注官网，

1.1. 创建表的同时创建全文索引
```
       CREATE TABLE article ( 
         id INT AUTO_INCREMENT NOT NULL PRIMARY KEY, 
         title VARCHAR(200), 
         body TEXT, 
         FULLTEXT(title, body)  --创建联合全文索引列
       ) TYPE=MYISAM; 
```
1.2.通过 alter table 的方式来添加
```
ALTER TABLE `student` ADD FULLTEXT INDEX ft_stu_name  (`name`) ;---ft_stu_name是索引名，可以随便起

---或者：

ALTER TABLE `student` ADD FULLTEXT ft_stu_name  (`name`);
```
1.3. 直接通过create index的方式
```
CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`);

---也可以在创建索引的时候指定索引的长度：

CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`(20));
```
2. 删除全文索引

2.1. 直接使用 drop index(注意：没有 drop fulltext index 这种用法)
```
DROP INDEX full_idx_name ON tommy.girl ;
```
2.2. 使用 alter table的方式
```
ALTER TABLE tommy.girl DROP INDEX ft_email_abcd;
```
3.使用全文索引

跟普通索引稍有不同

使用全文索引的格式：
```
MATCH (columnName) AGAINST ('string')
```
eg:
```
SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪');
```
当查询多列数据时：

建议在此多列数据上创建一个联合的全文索引，否则使用不了索引的。
```
SELECT * FROM `student` WHERE MATCH(`name`,`address`) AGAINST('聪 广东');
```
3.1. 使用全文索引需要注意的是：(基本单位是词)

分词，全文索引以词为基础的，MySQL默认的分词是所有非字母和数字的特殊符号都是分词符(外国人嘛)

这里推荐一篇文章：利用mysql的全文索引实现模糊查询

3.2. MySQL中与全文索引相关的几个变量：

使用命令：mysql> SHOW VARIABLES LIKE 'ft%'; #ft就是FullText的简写

ft_boolean_syntax + -><()~*:""&| #改变IN BOOLEAN MODE的查询字符，不用重新启动MySQL也不用重建索引
ft_min_word_len 4 #最短的索引字符串，默认值为4，(通常改为1)修改后必须重建索引文件

重新建立索引命令：repair table tablename quick

ft_max_word_len 84 #最长的索引字符串，默认值为84，修改后必须重建索引文件

ft_query_expansion_limit 20 #查询括展时取最相关的几个值用作二次查询

ft_stopword_file (built-in) #全文索引的过滤词文件，

具体可以参考：MySQL全文检索中不进行全文索引默认过滤词

特别注意：50%的门坎限制(当查询结果很多，几乎所有记录都有，或者极少的数据，都有可能会返回非所期望的结果)

-->可用IN BOOLEAN MODE即可以避开50%的限制。

此时使用全文索引的格式就变成了： SELECT * FROM student WHERE MATCH(name) AGAINST('聪' IN BOOLEAN MODE)

更多内容请参考：MySQL中的全文检索(1)

和常用的模糊匹配使用 like + % 不同，全文索引有自己的语法格式，使用 match 和 against 关键字，比如
```
select * from fulltext_test
    where match(content,tag) against('xxx xxx');
```
注意： match() 函数中指定的列必须和全文索引中指定的列完全相同，否则就会报错，无法使用全文索引，这是因为全文索引不会记录关键字来自哪一列。如果想要对某一列使用全文索引，请单独为该列创建全文索引。

4. ft_boolean_syntax (+ -><()~*:""&|)使用的例子：

4.1 + : 用在词的前面，表示一定要包含该词，并且必须在开始位置。
```
eg: +Apple 匹配：Apple123,   "tommy, Apple"
```
4.2 - : 不包含该词，所以不能只用「-yoursql」这样是查不到任何row的，必须搭配其他语法使用。
```
eg: MATCH (girl_name) AGAINST ('-林志玲 +张筱雨')
---匹配到： 所有不包含林志玲，但包含张筱雨的记录 
```
4.3. 空(也就是默认情况)，表示可选的，包含该词的顺序较高。
```
 例子：

`         apple banana      `找至少包含上面词中的一个的记录行

`         +apple +juice`        两个词均在被包含

`         +apple macintosh   `包含词 “apple”，但是如果同时包含 “macintosh”，它的排列将更高一些

`         +apple -macintosh  `包含 “apple” 但不包含 “macintosh”
```
4.4. > :提高该字的相关性，查询的结果会排在比较靠前的位置。

4.5.< :降低相关性，查询的结果会排在比较靠后的位置。

例子：4.5.1.先不使用 ><
```
select * from tommy.girl where match(girl_name) against('张欣婷' in boolean mode);
```
可以看到完全匹配的排的比较靠前

4.5.2. 单独使用 >
```
select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴' in boolean mode);
```
使用了>的李秀琴马上就排到最前面了

4.5.3. 单独使用 <
```
select * from tommy.girl where match(girl_name) against('张欣婷 <不是人' in boolean mode);
```
看到没，不是人也排到最前面了，这里使用的可是 < 哦，说好的降低相关性呢，往下看吧。

4.5.4.同时使用><
```
select * from tommy.girl where match(girl_name) against('张欣婷 >李秀琴 <练习册 <不是人>是个鬼' in boolean mode);
```
到这里终于有答案了，只要使用了 ><的都会往前排，而且>的总是排在<的前面

小结一下：
只要使用 ><的总比没用的靠前；

使用 >的一定比 <的排的靠前 (这就符合相关性提高和降低)；

使用同一类的，使用的越早，排的越前。
4.6. ( )：可以通过括号来使用字条件。
```
 eg: +aaa +(>bbb <ccc) // 找到有aaa和bbb和ccc，aaa和bbb，或者aaa和ccc(因为bbb，ccc前面没有+，所以表示可有可无)，

然后 aaa&bbb > aaa&bbb&ccc > aaa&ccc
```
4.7. ~ :将其相关性由正转负，表示拥有该字会降低相关性，但不像「-」将之排除，只是排在较后面
```
 eg:  +apple ~macintosh  先匹配apple，但如果同时包含macintosh，就排名会靠后。
```
4.8. * :通配符，这个只能接在字符串后面
```
 MATCH (girl_name) AGAINST ('+*ABC*')  #错误，不能放前面

 MATCH (girl_name) AGAINST ('+张筱雨*')  #正确
```
4.9. " " :整体匹配，用双引号将一段句子包起来表示要完全相符，不可拆字。
```
 eg:  "tommy huang" 可以匹配  tommy huang xxxxx  但是不能匹配 tommy is huang。
```
5.补充：Windows下无法修改 ft_min_word_len的情况

5. 1. 使用cmd打开 services.msc

找到你的 MySQL服务，右键Properties,找到你的my.ini所在的路径

5.2. 停止MySQL,在my.ini中增加 ft_min_word_len = 1,重启MySQL

然后使用命令 show variables like 'ft_min_word_len'; 查看是否生效了

参考：
链接1
链接2
查看全文

相关阅读:
获取Activity中得到焦点的EditText
SwipeRefreshLayout嵌套ScrollView包裹复杂头布局和RecyclerView
摄像机识别图片中的手机号
 Glide 加载图片
 反射，元类
 类与实例
 多态
 sys模块理解补充
 python中os模块再回顾
 面向对象之封装

原文地址：https://www.cnblogs.com/nxzblogs/p/11736766.html

mysql 全文索引

概念

版本支持

1.创建全文索引(FullText index)

1.1. 创建表的同时创建全文索引

1.2.通过 alter table 的方式来添加

1.3. 直接通过create index的方式

2. 删除全文索引

2.1. 直接使用 drop index(注意：没有 drop fulltext index 这种用法)

2.2. 使用 alter table的方式

3.使用全文索引

3.1. 使用全文索引需要注意的是：(基本单位是词)

4. ft_boolean_syntax (+ -><()~*:""&|)使用的例子：

4.1 + : 用在词的前面，表示一定要包含该词，并且必须在开始位置。

4.2 - : 不包含该词，所以不能只用「-yoursql」这样是查不到任何row的，必须搭配其他语法使用。

4.3. 空(也就是默认情况)，表示可选的，包含该词的顺序较高。

4.4. > :提高该字的相关性，查询的结果会排在比较靠前的位置。

4.5.< :降低相关性，查询的结果会排在比较靠后的位置。

4.6. ( )：可以通过括号来使用字条件。

4.7. ~ :将其相关性由正转负，表示拥有该字会降低相关性，但不像「-」将之排除，只是排在较后面

4.8. * :通配符，这个只能接在字符串后面

4.9. " " :整体匹配，用双引号将一段句子包起来表示要完全相符，不可拆字。

5.补充：Windows下无法修改 ft_min_word_len的情况

5. 1. 使用cmd打开 services.msc

5.2. 停止MySQL,在my.ini中增加 ft_min_word_len = 1,重启MySQL