zoukankan      html  css  js  c++  java
  • Lucene.Net如何实现搜索结果分类统计功能

    最近我们搜易站内搜索系统的一个客户需要一个无限级分类和分类统计功能,要实现的效果如下:

    但由于搜易站内搜索系统是基于Lucene.net 2.0开发的,并没有内置的分类统计搜索功能,于是乎只能自己实现了,考虑到客户的总数据量和搜索量不是特别大,于是用了简单有效的方式来实现:

    因为涉及到分类的操作,但是每个站点的分类体系还是有些不一样的,本文主要提供思路和部分演示代码,给有需要的童鞋参考:

    思路:

    首先想到Lucene搜索出来的结果是一个Hits对象,Hits其实就是一个搜索结果文档的集合对象,那么遍历这个集合对象,跟给定的分类字段比对,存在就+1 。

    代码示例:

    Lucene.Net.Search.Hits hits = Searcher.Search(querystring) ;

    int hcount = hits.Length();

    Lucene.Net.Documents.Document doc = null;
    for (int i = 0; i < hcount; i++)
    {
        doc = hits.Doc(i);
        string c1 = doc.GetField("Cate1").StringValue();

         //判断是否存在于给定的分类集合中,存在则加1

        if (parameter.Cate1Groups.ContainsKey(c1))
        {
            parameter.Cate1Groups[c1] = parameter.Cate1Groups[c1] + 1;
        }
        else
        {
            parameter.Cate1Groups.Add(c1, 1);
        }
    }

    适用场景:

    这种实现方式比较适合中小型网站,在数据量和搜索量不大的情况下可用。

    题外话:

    以前一直觉得,作为一个中小型网站,搜索的筛选不应该太多,毕竟海量数据的百度,谷歌都简单到只有一个搜索框,后来经过跟一些站长的交流后发现,其实并不是的这样的,有些网站,比如图片,素材,资源类网站,用户对这类网站的站内搜索的使用频率非常高的,对搜索质量,效率和精准筛选有比较高的要求,搜索的PV占比整站PV的比重是很高,如果搜索做的不好,对流量影响非常大,因为站内搜索好用的话,对PV的提升是双倍甚至几倍的,反之也是一样的。

  • 相关阅读:
    Kudu vs HBase
    数据分析怎么更直观?十分钟构建数据看板
    The Beam Model:Stream & Tables翻译(上)
    3分钟掌握一个有数小技能:收入贡献分析
    猛犸机器学习开发实践
    SparkSQL大数据实战:揭开Join的神秘面纱
    细说Mammut大数据系统测试环境Docker迁移之路
    python中的闭包与装饰器
    import详解
    python中的with与上下文管理器
  • 原文地址:https://www.cnblogs.com/kwklover/p/6494701.html
Copyright © 2011-2022 走看看