zoukankan      html  css  js  c++  java
  • 如何实施好基于MOSS的企业搜索项目(上)

    文章目的:希望通过此文,能让读者了解搜索的本质和基于MOSS的企业搜索方案,在此基础上站在项目管理角度掌 握如何实施好这类方案的项目的关键点,确保企业搜索项目成功交付。由于文章长度限制,本文分上下两部分,上部分包含搜索简介和基于MOSS的企业搜索的方 案说明;下部分将涉及站在项目管理角度如何实施好这类方案。

    一、企业搜索简介

        搜索,目前是个比较热门的词。一提到搜索,我们的第一反应就是Bing、Google或Baidu。事实上,搜索的定义范围更广。一般上按应用范围划分,我们将整个搜索行业分为互联网搜索企业搜索(局域网)桌面搜索(个人电脑桌面)三个层面。目前,每个层面都有许多知名产品占据着主要地位。如下图所示:

    搜索行业层面划分图

        在这里我们就不重点去说各个产品的优缺点对比了。我们需要更加关注的是,所有的搜索产品具有的共性,或者说,搜索解决方案的核心运作模式。这点对我们后面的项目目标范围确定、方案设计、项目的具体实施等都具有非常关键指导作用。

        站在使用者角度,回想一下你通过Bing、Google或Baidu进行搜索的主要场景:输入关键字,按搜索按钮进行查找,然后搜索引擎罗列出找到的所有 信息条目。然后,我们换个角度,站在搜索产品(或者说搜索引擎)的角度,思考下它的主要场景,将会得出所有搜索产品的核心运作模式内容源–>搜索引擎–>呈现结果。如下图所示:

    image

        首先,内容源是基础。在客户内部,肯定事先有大量的数据内容以各种形式存放在各种地方(如存放于Web站点的网页、存放于共享文件夹里的各种文档、存放于业务系统中的业务数据等等),这种现象造成的各种问题(如数据难以共享、数据难以萃取成有价值的信息等)就是客户的烦恼痛点所在。换个角度说,也就是我们搜索解决方案项目要解决的问题。

        其次,搜索引擎是技术手段。用搜索引擎来对所有的内容源进行数据信息提取、清洗、分类整理乃至智能分 析、相关度设置等,以形成各种有价值的信息提供给使用者。也就是说,搜索引擎是我们萃取数据为信息的一种技术手段。好的搜索引擎除了在性能上体现为更快, 在数据的分析整理等涉及到数据质量问题的处理上也更加智能化、个性化。这也就是为什么说性能好坏和数据信息质量的好坏是判断搜索引擎好坏的两个主要标准 了。因此,在我们实施企业搜索的项目中,这点是项目的关键技术点,需要进行比较多的技术攻关工作。

        第三,呈现结果是目的。通过搜索引擎进行数据萃取后,最终将结果呈现给使用者。呈现结果的机制也可以看成是搜索引擎的一部分,只是它表述更多的是一种用户体验,将搜索结果以更好的用户体验方式呈现给最终用户。就像上面提及的,站在使用者的角度,他所关心的就是“帮我寻找我要的信息”——既要找到信息,而且找到的信息是我要的。这两点也正好是搜索解决方案所要达到的的目标。

        在宏观上理解了搜索后,接下来我们简单了解下企业搜索。企业搜索自然也遵循上述搜索核心运作模式,同时具有自己的一些典型特征:

    • 内容源:企业局域网内的各种资源,包括位于企业内部门户网站、共享文件夹、FTP站点、Exchange公共文件夹等内的各式各样的文档资料及业务系统内部的业务数据等。
    • 范围:主要针对企业局域网内部的资源。
    • 数据量:中等(相对互联网搜索来说)。
    • 安全性:安全性要求高且灵活。
    • 爬网索引:依企业IT管理策略而定制。

    二、基于MOSS的企业搜索方案

        在搜索行业的三个层面里,微软都有相应的主流产品——互联网搜索的Bing,企业搜索的MOSS/FAST和桌面搜索的WDS。对于企业搜索,微软又分别做了市场细分,针对每种细分场景提供相应的企业搜索产品和方案。

    image

        我们这里只谈基于MOSS的企业搜索解决方案,对于微软的其他企业搜索产品,如Search Server、FAST等这里就略过,其实站在“实施好企业搜索项目”这个方向上大致原理都类似,区别的仅仅只是其中具体技术细节。

        根据搜索的核心运作模式,结合MOSS特点,整个基于MOSS的企业搜索解决方案主要包括以下内容:

    • 内容源的梳理:内容源是搜索方案的基础。内容源的梳理工作做得好,将起到事半功倍的作用。这点在后面如何实施好搜索项目中将具体细化讲述。
    • 搜索引擎的定制:根据需求对MOSS搜索引擎做相应的功能定制,比如支持PDF和AutoCAD文档索引、支持爬FTP站点、相关度调整、用户权限的整合等。这方面的定制将涉及MOSS搜索引起的几个关键技术点,将在后面如何实施好搜索项目中进一步描述。
    • 良好的用户体验:根据用户对信息格式的要求和使用习惯设计搜索呈现结果相关页面。除了基本的搜索结果元素呈现外,还包括最佳匹配、热门关键字、关联提示、联合搜索等。
    • 部署方案:根据数据量、用户量及客户的实际IT环境设计部署方案。诸如需要多少台服务器、各种角
      色的服务器怎么安排、对网络带宽的要求等。同时应该提出在可见的未来,数据量持续增加或用户量增加的情况下,如何调整以适应新情况。
    • 持续的运维规范: 持续的运维优化,是所有基于MOSS的方案(包括企业搜索)必须涵盖的内容。只有通过一系列的管理、运营、维护规范来保证MOSS应用的正常运作,才能使得MOSS应用富有生命力。

        基于MOSS的企业搜索方案的系统架构图如下所示:基于MOSS的企业搜索应用设计成为既是一个企业搜索应用,同时是一个可以为第三方应用提供搜索服务的基础服务。

    image

        由于篇幅考虑,针对基于MOSS的企业搜索方案的部署方案(大型、中型、小型三种部署方案)、MOSS企业搜索的技术架构等方案涉及的各个内容的细节就不做具体描述。这些均可以在MOSS SDK或MSDN相关文章上查阅到相关内容。

        【总结】:上半部分内容,主要掌握“内容源–>搜索引擎–>呈现结果”的搜索核心运作模式。以此来贯穿整个企业搜索方案的各个部分,甚至后面下半部分提及的如何实施好企业搜索方案项目也将会用这条主线结合项目过程交付管理来描述。

  • 相关阅读:
    .Net中DataGridview数据如何导出到excel表
    SQLSEVER 中的那些键和约束
    数据仓库中数据粒度
    详解三层架构图
    三层概念总结
    SQL Sever 2008配置工具中过程调用失败解决方法
    设计模式之中介者模式
    设计模式之访问者模式
    设计模式之代理模式
    设计模式之迭代器模式
  • 原文地址:https://www.cnblogs.com/shihao/p/2163901.html
Copyright © 2011-2022 走看看