zoukankan      html  css  js  c++  java
  • solr 分词词库管理思路

    solr 分词词库管理思路
    大概有以下几种思路:
    1。 自定义 SolrRequestHandler
           由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添加词库 等操作
           这样的话,还需要在内存中hold 住所有的词,或者需要引用到分词的jar
    2. 在自定义分词器中实现从文件拉取
           对词库文件设置FileWatcher,只要文件有变更,就重新加载一遍词库。
           这个成本比较高。
    3.  在自定义分词器中实现从db拉取,本地文件备份。
        这样的话,需要实现定时拉取,另外,solr初次启动的时候,最好不要拉取词典(可能影响启动速度)。
        另外,对拉取到的数据,可以做增量。
    4. 使用本地文件为主, 同时通过pubsub来进行动态实时操作词库
         优点,可以实时发布词库。
         缺点, 不是很易读。
    -------------------------------------------------------------------------------------------------------------
    Solr 默认实现的若干TokenFilter,都有一个缺点:
    即默认配置的词表都是由文件加载的。那么使用过程中,就无法支持动态添加了。
    比如StopFilter 或者 SynonymFilterFactory
  • 相关阅读:
    IOI2021集训队作业 CK String Theory
    IOI2021集训队作业 123ED Gem Island
    IOI2021集训队作业 121MB Bipartite Blanket
    ASP.NET站点Web部署(一键发布的实现)
    HTTP文件上传
    前言
    关于 Mybatis的原生连接池 和 DBCP 连接池
    linux 学习 端口占用 && 内存使用
    跨域问题
    Cassandra 学习三 安装
  • 原文地址:https://www.cnblogs.com/lykm02/p/4087837.html
Copyright © 2011-2022 走看看