zoukankan      html  css  js  c++  java
  • 常用的站内搜索技术比较

      基于数据库的搜索 基于spider抓取的站内搜索 全文检索者站内搜索软件系统
    原理 数据库搜索 通过Spider抓取网页,经html解析,分词,索引实现网页式站内搜索。 对数据库数据进行html解析、图片缩略,分词,索引,实现站内搜索。
    检索效率 非常低下 消耗大量硬件资源 高效 高效
    检索范围 无法完成全文检索(可以用sql的单字索引功能最简单的完成索引功能实现最低级的全文检索),只能进行标题检索。 数据库效率太低,无法开展各种附加功能。 网页检索 优点:不需要做各种工作,直接即可使用 缺点: 1.有大量的不必要的信息影响搜索结果的排序和显示的效果。严重影响精确度。 2.部分页面无法抓取到。 3.用户对搜索范围和内容以及体现的结果无法精确控制 标题+内容 基于内容分析的排序方法。基于内容分析排序是最佳的排序方法。 标题和内容可控制,搜索结果准确到位。 内容可控,用户可对搜索的内容范围和体现的结果进行精确的控制
    检索语法 支持标准的国际搜索语法。 支持标准的国际搜索语法。
    动态摘要 摘要内容不清晰各种垃圾信息过多 提供动态摘要,摘要清晰精确,便于用户快速寻找到需要的信息。
    关键词飘红
    内容的范围 可控制 不可有效控制,动态网页抓取效果不佳,没有链接的网页无法抓取,页面出现杂乱信息影响搜索结果。对于时间控制也无法做到精准,对于栏目的归属无法做到准确。 可有效控制,您可以把多个字段拆分合并,可以确定那些需要,哪些不需要。所有动态网页和没有链接的网页均可有效收入。 栏目控制精准。
    图片缩略
    同义词
    相关性排序
    其他 低效率低质量的平台无法开展增值服务 二次研发成本高 具有持续不断的升级能力和良好的售后服务。
    成本 价格高 以产品形式运作,多家客户分摊成本,成本相对低廉。运维成本低。
    维护成本 不大 维护量不大。 程序维护无须投入,但是需要进行一定量的内容维护。 经过简单培训即可胜任。
  • 相关阅读:
    动手搭建 Web 框架深入了解 Web 框架的本质
    HTTP 协议
    Objectarx 判断点是否在多段线内部
    最小面积圆覆盖
    最小面积矩形覆盖
    objectarx之(点集)凸包算法
    Objectarx之相交矩形求并集 面域转多段线
    实时监控linux主机网络活动,上传下载速度
    block SSH attacks on Linux with denyhosts (centOS7)
    ASCII Camera
  • 原文地址:https://www.cnblogs.com/Byrd/p/1992361.html
Copyright © 2011-2022 走看看