定义
从互联网上搜索,通过文本匹配,采取一些手段找到最好的信息。
结果衡量
- 相关性-结果与query的匹配,结果与用户需求的匹配
- 权威性-结果被引用次数(超链),链接分析
- 时效性-结果对用户是有用新鲜的
- 多样性-根据用户行为返回丰富的结果(苹果?)
- 个性化-地域、用户喜好
- 反spam
搜索步骤
数据的处理:
- 抓取网页(高效、实时)
- 建立网页库,存储数据(海量)
- 建立索引
- 信息抽取、特征生产
- query分析、切词
- 倒排索引
- 结果排序(相关性计算)
- 展现
问题
通过上面可以了解搜索引擎的基本流程和原理,但是具体实现并用于实际服务中,就会有各种问题需要解决:
- 网页的发现、高效及时的抓取
- 海量数据的存储和处理
- 相关性的计算
- query分析:
- 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
- 需求分析 - 需求扩展、时效性检查、需求类型识别
- query变换
- 对用户需求快速、稳定的响应
- 丰富的展现