zoukankan      html  css  js  c++  java
  • solr4.5安装配置 linux+tomcat6.0+mmseg4j-1.9.1分词

    首先先介绍下solr的安装配置

    solr下载地址 我这用的solr-4.5.0)

    运行环境

    • JDK 1.5或更高版本 下载地址(Solr 4以上版本,要求JDK 1.6)  我用的JDK1.6 )
    • 一个java servlet容器,如Tomcat 下载地址 (我用的Tomcat 6,注:JDK1.7 跟Tomcat 7貌似有兼容性问题,记于 2013.12.12)
    • 分词mmseg4j 下载地址 (我用的1.9)

    为防止大家各种目录搞混,安装前先告诉大家我自己所创建使用的目录

      整个运行环境我创建了四个目录,分别用于

        1、solr源码保存,位于/down/solr

        2、solr web运行环境,位于/usr/local/tomcat/webapps

        3、solr 实例运行环境,位于/usr/local/solr

        4、jdk,位于/usr/java/jdk1.6.0_13

      接下来的各种配置,将以此目录进行说明。

    安装步骤(这里以jdk1.6 tomcat6.0 为例,他们的安装方式不属于此文的讲解范围)

    • 停止的servlet容器
    • 从下载的solr包中复制solr.war到你的servlet容器的webapps目录

      cp /down/solr/example/webapps/solr.war  /usr/local/tomcat/webapps/solr
    • 从下载的solr包中复制示例Solr的文件夹到您的solr实例环境。

      cp /down/solr/example/solr  /usr/local/solr
    • 打开 etv/profile 文件,添加如下配置,请修改为你的jdk安装目录:
      复制代码
      export JAVA_HOME=/usr/java/jdk1.6.0_13
       
      export JAVA_BIN=/usr/java/jdk1.6.0_13/bin
       
      export PATH=$PATH:$JAVA_HOME/bin
       
      export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
       
      export JAVA_HOME JAVA_BIN PATH CLASSPATH
      复制代码
    • 设置你的solr_home目录,也就是前面所述“solr 实例运行环境"所在目录  /usr/local/solr,打开以下文件,修改solr_home目录

      vi /usr/local/tomcat/webapps/solr/WEB-INF/web.xml

      找到如下配置,取消注释,修改value为 /usr/local/solr    
          

      <env-entry>
             <env-entry-name>solr/home</env-entry-name>
             <env-entry-value>/usr/local/solr/</env-entry-value>
             <env-entry-type>java.lang.String</env-entry-type>
      </env-entry>
    • 另外还有一处要修改,但本人第一次配置solr的时候没改此处一样能运行,后面不知道那个环节路径错了,导致无法运行,也没去深究,修改以下配置就能运行
      打开下面文件
      vi /usr/local/solr/collection1/conf/solrconfig.xml

      修改此处路径为绝对路径

        <lib dir="/down/solr/contrib/extraction/lib" regex=".*.jar" />
        <lib dir="/down/solr/dist/" regex="solr-cell-d.*.jar" />
      
        <lib dir="/down/solr/contrib/clustering/lib/" regex=".*.jar" />
        <lib dir="/down/solr/dist/" regex="solr-clustering-d.*.jar" />
      
        <lib dir="/down/solr/contrib/langid/lib/" regex=".*.jar" />
        <lib dir="/down/solr/dist/" regex="solr-langid-d.*.jar" />
      
        <lib dir="/down/solr/contrib/velocity/lib" regex=".*.jar" />
        <lib dir="/down/solr/dist/" regex="solr-velocity-d.*.jar" />
    • 启动Servlet容器。

    • 打开http://localhost:8080/solr/admin solr管理后台,验证是否安装成功。

      • servlet容器可能已经开始的端口不是8080其他在...检查servlet容器的文档,如果你不知道这是什么。
      • 如果已经在该端口上运行一个servlet容器,你可能无法启动。关闭另外一个或更改你是在运行的端口。

      有关使用一个以上的索引,或者Solr中的多于一个实例的工作信息,请参阅MultipleIndexes

      有关于tomcat的英文配置讲解原版http://wiki.apache.org/solr/SolrTomcat

    以上步骤,配置完毕,并验证成功后,继续来配置mmseg4j分词  下载地址

      首先,在你创建的solr实例目录下,新建lib,dic两个文件夹,一个用于存放jar文件(lib),一个用于存放词库(dic)

    cd /usr/local/solr mkdir lib  mkdir dic

      解压你下载的mmseg4j ,将mmseg4j /dist目录下的jar文件拷贝至刚新建的lib文件夹,将mmseg4j /data目录下的文件拷贝纸刚新建的dic文件夹

    打开 /usr/local/solr/collection1/conf/solrconfig.xml文件,添加配置

     <lib dir="/usr/local/solr/lib" />

    打开 /usr/local/solr/collection1/conf/schema.xml文件,分别在相应位置添加如下配置。

    <field name="simple" type="textSimple" indexed="true" stored="true"/>  
    <field name="complex" type="textComplex" indexed="true" stored="true"/>  
    <field name="MaxWord" type="textMaxWord" indexed="true" stored="true"/>  
    
    <copyField source="simple" dest="text" />  
    <copyField source="complex" dest="text"/>  
    <copyField source="MaxWord" dest="text"/>  
    
    <fieldType name="textComplex" class="solr.TextField">  
      <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/usr/local/solr/dic"/>  
      </analyzer>  
    </fieldType>  
        <fieldType name="textMaxWord" class="solr.TextField">  
      <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="usr/local/solr/dic"/>  
      </analyzer>  
    </fieldType>  
        <fieldType name="textSimple" class="solr.TextField">  
      <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="usr/local/solr/dic"/>  
      </analyzer>  
    </fieldType>  

    OK,到此为止词库已经配置成功,重启tomcat打开 http://localhost:8080/solr/admin 试试分词效果吧,各种配置的详解将在后面的文章进行说明。

  • 相关阅读:
    linux-vi/vim
    Linux性能监控-ss
    Linux性能监控-netstat
    Linux性能监控-sar
    Linux性能监控-htop
    Linux性能监控-pstree
    Linux性能监控-ps
    查看linux占用内存/CPU最多的进程
    Linux性能监控-top
    Linux-cpu-socket/core/processor
  • 原文地址:https://www.cnblogs.com/shaocan/p/3498043.html
Copyright © 2011-2022 走看看