zoukankan      html  css  js  c++  java
  • 搜索引擎学习-概述

    定义

    互联网上搜索,通过文本匹配,采取一些手段找到最好的信息

    结果衡量

    • 相关性-结果与query的匹配,结果与用户需求的匹配
    • 权威性-结果被引用次数(超链),链接分析
    • 时效性-结果对用户是有用新鲜的
    • 多样性-根据用户行为返回丰富的结果(苹果?)
    • 个性化-地域、用户喜好
    • 反spam
    可以抽象为1个打分公式:score = F(query, doc, user)

    搜索步骤

    数据的处理:
    1. 抓取网页(高效、实时)
    2. 建立网页库,存储数据(海量)
    3. 建立索引
    4. 信息抽取、特征生产
    搜索的实现:
    1. query分析、切词
    2. 倒排索引
    3. 结果排序(相关性计算)
    4. 展现



    问题

    通过上面可以了解搜索引擎的基本流程和原理,但是具体实现并用于实际服务中,就会有各种问题需要解决:
    • 网页的发现、高效及时的抓取
    • 海量数据的存储和处理
    • 相关性的计算
    • query分析:
      • 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
      • 需求分析 - 需求扩展、时效性检查、需求类型识别
      • query变换
    • 对用户需求快速、稳定的响应
    • 丰富的展现
    对于实现的介绍,见下篇文章。

  • 相关阅读:
    花匠
    积木
    Hello world
    老鼠走迷宫全部路径
    今天下午选做题目
    整数高精度运算——加法
    博客启航
    解线性不定方程
    关于完全背包问题
    关于最小代价子母树
  • 原文地址:https://www.cnblogs.com/whuqin/p/4981991.html
Copyright © 2011-2022 走看看