搜索引擎

zoukankan html css js c++ java

搜索引擎
Sphinx是什么

Sphinx是一个全文检索引擎。

Why/为什么使用Sphinx

遇到的使用场景

遇到一个类似这样的需求：用户可以通过文章标题和文章搜索到一片文章的内容，而文章的标题和文章的内容分别保存在不同的库，而且是跨机房的。

可选方案

A、直接在数据库实现跨库LIKE查询

优点：简单操作缺点：效率较低，会造成较大的网络开销

B、结合Sphinx中文分词搜索引擎

优点：效率较高，具有较高的扩展性缺点：不负责数据存储

使用Sphinx搜索引擎对数据做索引，数据一次性加载进来，然后做了所以之后保存在内存。这样用户进行搜索的时候就只需要在Sphinx服务器上检索数据即可。而且，Sphinx没有MySQL的伴随机磁盘I/O的缺陷，性能更佳。

Sphinx的工作原理

Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据，对数据进行分词，然后根据生成的分词生成单个或多个索引，并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。

Sphinx工作流程图：

流程图解释：
- Database：数据源，是Sphinx做索引的数据来源。因为Sphinx是无关存储引擎、数据库的，所以数据源可以是MySQL、PostgreSQL、XML等数据。
- Indexer：索引程序，从数据源中获取数据，并将数据生成全文索引。可以根据需求，定期运行Indexer达到定时更新索引的需求。
- Searchd：Searchd直接与客户端程序进行对话，并使用Indexer程序构建好的索引来快速地处理搜索查询。
- APP：客户端程序。接收来自用户输入的搜索字符串，发送查询给Searchd程序并显示返回结果。
Sphinx的配置

数据源配置

source test //source后面跟着的是数据源的名字，后面做索引的时候会用到；

{

      type                    = mysql 　　　　　　　　　　//type：数据源类型，可以为MySQL，PostreSQL，Oracle等等；



      sql_host                = 127.0.0.1

      sql_user                = root

      sql_pass                = root

      sql_db                  = test

      sql_port                = 3306    # optional, default is 3306



      sql_query_pre           = SET NAMES utf8 　　 //sql_query_pre：定义查询时的编码

      sql_query       　　　　 = SELECT id, name, add_time FROM tbl_test //sphinx除了主键和属性，其他的都可以做索引



      sql_attr_timestamp      = add_time //索引属性,时间戳，

　　#sql_attr_uint = media_type_u //索引属性，整形
　　sql_attr_uint = role　　　　　　
　　#sql_attr_string = tokens　　　　//索引属性，字符串

  　　

　　　sql_query_info_pre      = SET NAMES utf8 //设置查询编码，如果在命令行下调试出现问号乱码时，可以设置此项；

      　　sql_query_info          = SELECT * FROM tbl_test WHERE id=$id //设置命令行下返回的信息。

}

索引配置

index test_index 　　　　　　　　//index后面跟的是索引名称

{

     source                    = test 　　//source：数据源名称；

     path                      = /usr/local/coreseek/var/data/test 　　　　 //每个索引存在的地址都不能一样！！！！，我们可以在建个文件夹，放

     docinfo                   = extern　　　　　　　　　　　　　　　　//索引文档属性值存储模式；

     charset_dictpath          = /usr/local/mmseg3/etc/　　　　　　　　//中文分词时启用词典文件的目录，该目录下必须要有uni.lib词典文件存在；

     charset_type              = zh_cn.utf-8　　　　　　　　　　　　//数据编码类型；

     ngram_len                 = 1　　　　　　　　　　　　　　　　　//分词长度；

     ngram_chars               = U+3000..U+2FA1F　　　　　　　　//要进行一元字符切分模式认可的有效字符集。

}

sphinx使用配置文件从数据库读出数据之后，就将数据传递给Indexer程序，然后Indexer就会逐条读取记录，根据分词算法对每条记录建立索引，分词算法可以是一元分词/mmseg分词。

什么是增量索引

在实际应用中往往有这么一种情况，数据库数据很大，比如我们的歌曲表，如果我们每次都去更新整个表的索引，对系统得开销将非常大，显然这是不合适，这时我们会发现，每天我们需要更新的数据相比较而言较少，在这种情况下我们就需要使用“主索引+增量索引”的模式来实现实时更新的功能。

这个模式实现的基本原理是设置两个数据源和两个索引，为那些基本不更新的数据建立主索引，而对于那些新增的数据建立增量索引。主索引的更新频率我们可以设置的长一些(可以设置在每天的午夜进行更新)，而增量索引的更新频率，我们可以将时间设置的很短(几分钟左右)，这样在用户搜索的时候，我们可以同时查询这两个索引的数据。

php扩展下载
http://pecl.php.net/package/sphinx/1.3.3/windows

基本命令:
启动服务
searchd.exe
searchd.exe -c shpinx.conf

重建主索引 (xiaoheiban_log 这个索引定义为 index, 在shpinx.conf中)
indexer -c sphinx.conf xiaoheiban_log --rotate

建立增量索引 (xiaoheiban_log_delta 这个索引定义为 index, 在shpinx.conf中)
indexer -c sphinx.conf xiaoheiban_log_delta --rotate

增量合并(可以在启动searchd下直接合并增量)
indexer --merge xiaoheiban_log xiaoheiban_log_delta --rotate
查看全文

相关阅读:
java 集合框架(十五)Deque
java 集合框架(十四)Queue
java 集合框架(十)List
java 集合框架(四)Set
java 集合框架(三)Collection
java 集合框架(一)概述
 java 集合框架(二)Iterable接口
 java I/O框架 (四)文件流
 全零网络IP地址0.0.0.0表示意义详谈
 windows在cmd执行svn 命令

原文地址：https://www.cnblogs.com/mlls/p/7682289.html

Sphinx是什么

Why/为什么使用Sphinx

遇到的使用场景

可选方案

Sphinx的工作原理

Sphinx的配置

数据源配置

索引配置