zoukankan      html  css  js  c++  java
  • 四、Solr数据源配置(JNDI、DIH)及定时重做索引

    简介

    Solr支持很多种创建索引的方式,包括网页,xml以及数据库,因为我这边做的是企业级的搜索,所以用的是数据库建立索引。其实从数据库建立索引,很大程度上取决于原来的数据库设计。

    从数据库建立索引,solr官方是提供一个工具的—Data Import Handler。在下载的solr中可以找到相关的jar包:

    solr-dataimporthandler-4.9.0.jar

    solr-dataimporthandler-extras-4.9.0.jar

    将这两个jar包添加进web-inf/lib中

    Solr/example中有example-DIH的项目,用了hsqldb作为数据库演示了DIH的使用。读者有兴趣可以去看下,这里就介绍我的配置方法。

    DIH还支持增量索引,即在上次建立索引的基础上,只导入增量的数据。这个需要数据表设计的比较好,能够有字段区分,比如创建日期。这里我并没有使用增量索引。

    Jndi配置

        Jndi有两种配置方法,第一种是在tomcat中配置,跟普通的jndi配置并没有什么区别。

        另外一种则是在前面博客中说过的$TOMCAT_HOMEconfCatalinalocalhostsolr.xml中配置,因为我是在开发环境中配置,到生产环境时用的是resin所以,我使用第二种方法配置,之后比较容易移植。

    1. <?xml version="1.0" encoding="UTF-8"?>
    2. <Context docBase="D:Installed Applicationsapache-tomcat-8.0.9-windows-x64apache-tomcat-8.0.9webappssolr.war" debug="0" crossContext="true" >
    3.     <Environment name="solr/home" type="java.lang.String" value="D:Installed ApplicationsSolrIndex" override="false" />
    4.    <Resource name="jdbc/song" auth="Container" type="javax.sql.DataSource" username="root" password="123456" driverClassName="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/song" maxActive="-1"/>
    5. </Context>

    Solrconfig.xml配置

    在每个核心中的solrconfig.xml中配置dataimport:

    1. <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    2.     <lst name="defaults">
    3.        <str name="config">dbconf/Song.xml</str>
    4.     </lst>
    5.   </requestHandler>

    配置文件的路径最好使用相对路径。

    Db.xml配置

    在solrconfig.xml中配置好了db.xml所在的路径后,接下来就来配置db.xml。名字可以随便起,不过建议和core name一致。

    先来看个最简单的配置:

    1. <dataConfig>
    2.        <dataSource name="song" jndiName="java:comp/env/jdbc/song" type="JdbcDataSource"/>
    3.     <document>
    4.          <entity name="Artist" dataSource="song" query="select ArtistID,Name from artist'">
    5.             <field column="ArtistID" name="Artist_ID" />
    6.             <field column="Name" name="Artist_Name" />
    7.  
    8.          </entity>
    9.       </entity>
    10.     </document>
    11. </dataConfig>

     

    dataSource

    所使用的数据源,其中name为可选的,主要在使用多数据源时使用。

    Document

    代表一个文档

    Entity

    即需要从数据库中取出的数据,支持sql语句,支持多表查询。跨库查询后面会介绍

    Field

    即接受到的数据,列名column和索引中的名称(必须和schema.xml)中field定义的名字一样。

     

    Schema.xml配置

    1. <field name="Artist_ID" type="int" indexed="true" stored="true" multiValued="false" />
    2.    <field name="Artist_Name" type="text_ik" indexed="true" stored="true" multiValued="false"/>

    配置相应的field。

    导入和测试

    如上图所示,点击excute即可将数据库中的数据导入索引库。

     

    多数据源配置

    多数据源是非常有用的一个配置。比如用户的信息存储在user表中,但是用户的分类存储在category表中,这两个表用userid联系起来,那么用多数据源的配置会非常简单。当时我并不知道怎样配置多数据源,结果导致我的SQL非常长,并且如果需要同时用到mysql和oracle时,只能用两个核心来实现(使用多数据源后,可以再一个核心索引库里配置)

    数据源jndi的配置就不说了。

    主要是DB.xml的配置:

    1. <dataConfig>
    2.    <dataSource name="song" jndiName="java:comp/env/jdbc/song" type="JdbcDataSource"/>
    3.    <dataSource name="songCategory" jndiName="java:comp/env/jdbc/songCategoty" type="JdbcDataSource"/>
    4.  
    5.     <document>
    6.        <entity name="Song" query="SELECT songID,name FROM song">
    7.       <field column="songID" name="songID" />
    8.       <field column="name" name="Name" />
    9.       
    10.  
    11.          <entity name="SongCategory" dataSource="SongCategory" query="select categoryName from songcategory where songID=${Song.songID}">
    12.             <field column="categoryName " name="categoryName " />
    13.          </entity>
    14.    </entity>
    15.     </document>
    16. </dataConfig>

     

    如上面的配置,其实配置是比较简单的,主要是SQL和数据的组织。可以看到DIH的功能是非常强大的。

    定时重做索引

    在用solr生成索引时,还有一个需求就是定期重做索引,官方是不支持此功能的,需要使用一个修改过的第三方jar:solr-dataimportscheduler-1.1.jar。

    下载地址https://code.google.com/p/solr-dataimport-scheduler/

        但是这个版本会有一个问题,它是使用post请求访问到solr服务器端,并没有制定content-type,导致出错,需要修改源码。

    所以附件提供修改后的jar包下载(下载配置后即可使用):

     

    配置:

    步骤一:

    在solr hom根目录中新建conf文件夹

    步骤二:

        将solr-dataimportscheduler-1.1.jar包解压缩取出dataimport.properties复制到上一步建立的conf文件夹中。

    步骤三:

    修改tomcat发布的webapps/solr/WEB-INF/web.xml(或者修改solr.war中WEB-INF/web.xml), 在servlet节点前面增加:

    1. <listener>
    2. <listener-class>org.apache.solr.handler.dataimport.scheduler.ApplicationListener
    3. </listener-class>
    4. </listener>

    步骤四:

    在中配置相关的信息,都比较简单,读者可以自行看文件中的注释就明白了,特别说下重做索引的URL,如下:

    # 重做索引的参数

    1. reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
    2. #reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true

     

    两种方式都可以。

    加上其他的配置信息,如localhost,port,syncCores等等,其实原理就是根据配置信息生成一个带有重做索引命令的url,然后定期访问该url即可。自己在项目中实现一个定时器也可以实现:)

    附件

    点击下载

  • 相关阅读:
    7个简单但棘手的JavaScript面试问题
    Promise.then链式调用顺序
    JS模拟实现枚举
    web前端常见的加密算法介绍
    JavaScript浮点数精度
    工作中常用的JavaScript函数片段
    JavaScript Array (数组) 对象
    快速找出数组中是否包含公共项
    用JavaScript让你的浏览器说话
    JavaScript的声明提升
  • 原文地址:https://www.cnblogs.com/edwinchen/p/3975004.html
Copyright © 2011-2022 走看看