引言
早些时候分享过一份关于搜索引擎技术的PPT,这篇文章基本上是基于原来框架,在内容上做了一些改进和扩充。
主要是对搜索引擎技术的各方面做一些简单的介绍和入门的指引。
索引
1. 需求与历史
2. 搜索产品简单介绍
3. 搜索技术
3.1 系统
3.2 数据
3.3 算法
4. 开源方案
5. 现状与未来
需求与历史
搜索引擎的诞生源自互联网最根本的用途之中的一个:信息获取。在搜索引擎出现之前,互联网缺少入口,用户往往须要自己记住实用的站点和网页。
为了满足这样的需求,最早的“搜索引擎”,即分类文件夹浏览式的引擎便出现了,Yahoo就是当中的代表。
当时仅仅是把一些实用的站点通过分类的方式手工组织起来,便于用户找到实用的信息。
可以手工组织也是基于早年整个互联网的站点数量也很少,可以通过人工方式实现组织。
但随着互联网的壮大,网页站点数量越来越多,手工组织的方式变为不可行,于是由机器实现的全文检索引擎便出现了。
用户能够通过keyword查询来获取相关的网页。
但随着网页数量进一步增多,不论什么keyword查询都会返回大量的相关网页,假设对网页进行评分和排序,返回给用户真正有价值的网页便成为重点。
基于网页之间的链接关系为网页进行评分,成为非常多搜索引擎的网页排序算法基础,Google的PageRank算法便是当中的代表者和姣姣者。
Google也以此为基础成为搜索引擎产品中的率先者,为用户提供了更好的搜索结果相关性。
现代搜索引擎基本上也由此基本成型,尽管后来的技术创新和改进非常多,但基本的思路基本上没有变。
搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。现在的一些改进和变化基于在多元化的信息整合,以及产品形态的改进上。
未来会往什么方向发展,或者有什么革命的变化,都不能确定。
搜索产品
搜索引擎产品事实上包含非常多种类,并不限于我们最熟悉的全网搜索引擎。
简单分类罗列一下:
* 全网搜索:包含市场份额最高的几大搜索引擎巨头,Google, Yahoo, Bing。
* 中文搜索:在中文搜索市场中,百度一家独大,其他几家如搜狗、搜搜、有道,市场份额相对还比較小。
* 垂直搜索:在各自的垂直领域成为搜索入口的,购物的淘宝,美食的大众点评,旅游的去哪儿,等等。
* 问答搜索:专注于为问句式提供有效的答案,比方Ask.com;其他的如问答社区像Quora和国内的知乎,应该也会往这方面发展。
* 知识搜索:典型代表就是WolframAlpha,差别于提供搜索结果列表,它会针对查询提供更具体的整合信息。
* 云搜索平台:为其他产品和应用提供搜索服务托管平台(SaaS或是PaaS),Amazon刚刚推出它的CloudSearch, IndexTank在被Linkedin收购之前也是做这项服务。
* 其他:比始DuckDuckGo,主打隐私保护,也有部分用户买帐。
各种搜索产品在各自领域都须要解决特定的技术和业务问题,所以也能够建立相对通用搜索的优势,来得到自己的市场和用户。
搜索技术
搜索引擎所涉及和涵盖的技术范围很广,涉及到了系统架构和算法设计等很多方面。
能够说因为搜索引擎的出现,把互联网产品的技术水平提高到了一个新的高度;搜索引擎不管是在数据和系统规模,还是算法技术的研究应用深度上,都远超之前的简单互联网产品。
列举一些搜索引擎所涉及到的技术点:
* 爬虫 (Crawling)
* 索引结构 (Inverted Index)
* 检索模型 (VSM & TF-IDF)
* 搜索排序 (Relevance Ranking & Evaluation)
* 链接分析 (Link Analysis)
* 分类 (Document & Query Classification)
* 自然语言处理 (NLP: Tokenization, Lemmatization, POS Tagging, NER, etc.)
* 分布式系统 (Distributed Processing & Storage)
* 等等
尽管搜索引擎涉及的技术方方面面,但归结起来最关键的几点在于:
* 系统:大规模分布式系统,支撑大规模的数据处理容量和在线查询负载
* 数据:数据处理和挖掘能力
* 算法:搜索相关性排序,查询分析,分类,等等
系统
搜索引擎系统是一个由很多模块组成的复杂系统。
核心模块通常包含:爬虫,索引,检索,排序。
除了必需的核心模块之外,通常还须要一些支持辅助模块,常见的有链接分析,去重,反垃圾,查询分析,等等。
[附图:搜索系统架构概念模型]
简介一下搜索系统的概念模型中的各模块:
* 爬虫
从互联网爬取原始网页数据,存储于文档server。
* 文档server
存储原始网页数据,通宵是分布式Key-Value数据库,能依据URL/UID高速获取网页内容。
* 索引
读取原始网页数据,解析网页,抽取有效字段,生成索引数据。
索引数据的生成方式一般是增量的,分块/分片的,并会进行索引合并、优化和删除。
生成的索引数据通常包含:字典数据,倒排表,正排表,文档属性等。
生成的索引存储于索引server。
* 索引server
存储索引数据,主要是倒排表。
一般是分块、分片存储,并支持增量更新和删除。
数据内容量很大时,还依据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。
* 检索
读取倒排表索引,响应前端查询请求,返回相关文档列表数据。
* 排序
对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。
* 链接分析
收集各网页的链接数据和锚文本(Anchor Text),以此计算各网页链接评分,终于会作为网页属性參与返回结果排序。
* 去重
提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。
* 反垃圾
收集各网页和站点历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。
* 查询分析
分析用户查询,生成结构化查询请求,指派到对应的类别、主题数据server进行查询。
* 页面描写叙述/摘要
为检索和排序完毕的网页列表提供对应的描写叙述和摘要。
* 前端
接受用户请求,分发至对应server,返回查询结果。
[附图:爬虫系统架构]
爬虫系统也是由多个模块构成:
* URL Scheduler
存储和高度待爬取的网页地址。
* Downloader
依据指定的网页列表爬取网页内容,存储至文档server。
* Processer
对网页内容进行简单处理,提取一些原始属性,为爬取的兴许操作服务。
* Traffic Controller
爬取流量控制,防止对目标站点在短时间内造成过大负载。
[附图:搜索系统架构实例:Google]
这是Google早期的一张系统架构图,能够看出Google系统的各模块基本和前面概念模型一致。
所以一个完整的全网搜索系统的大致系统架构是类似的,差别和竞争力体如今细节实现和优化上。
数据
除了搜索引擎系统提供了系统支撑外,搜索结果质量非常大程度上依赖于源数据的数量和质量,以及数据处理的能力。
全网数据的主要来源一般是从互联网上进行自己主动爬取,从一些高质量的种子网站開始,并沿网页链接不断展开,收集巨量的网页数据;这通常能达到数据在数量的要求,但也不可避免混入了大量的低质量网页。
除了自己主动爬取来的数据外,搜索引擎的数据来源还能够来自人工收集、合作伙伴提供、第三方数据源和API、以及购买;这些来源一般会有更好的质量保证,但在数量规模和覆盖率上会相对少一些,能够和爬取的数据形成有效的互补。
收集到足量的原始数据后,须要进行各种数据处理操作,把原始数据转换成在线检索须要的数据。
这个过程通常包含:网页分析,数据抽取,文本处理和分词,索引及合并;终于生成的数据会包含:词典,倒排表,正排表,文档权重和各种属性。
终于生成的数据要布署上对应的在线检索server上,一般会进行数据分区和分片布署,数据内容更丰富时还可能依据内容分类和主题进行分别布署,比方新闻时效类的网页可能就会独立布署,针对性地响应时效类的查询。
[附图:索引数据:字典、倒排表、正排表]
这张图来源于Google早期的索引数据结构,包含词典、倒排表、正排表。
算法
有了相当数量的高质量数据之后,搜索结果的质量改进就取决于搜索算法的准确性上。
如今的搜索引擎通常通过向量空间模型(VSM = Vector Space Model)来计算查询和各文档之间的文本相似性;即把查询或文档抽象成一个词向量,然后再计算向量在向量空间中的夹角,能够用余弦公式得出,作为文本相似度的度量值。
在 主要的向量空间模型基础上一般会进一步增加词的权重值进行改进,通过经典的TF-IDF公式得出,即词频(TF)乘上逆文档频率(IDF);当中TF = Term Frequency,即该词在所在文档中的出现次数;IDF = Invert Document Frequency,即包括该词的文档数除以总文档数,再取反,通常还会取对数来降维,这个值值越大表示这个词越能代表文档特征。
除了通过向量空间模型得出的文本匹配评分外,每一个文档还会有自己本身的质量评分,通常由网页链接数据计算得出,代表了该网页本身的流行度权重。
终于的评分会以文本匹配的查询时动态评分和文档静态评分为基础计算得出;搜索引擎的评分计算都会考虑非常多因素,但这两项一般是评分计算的基础。
有了确定的排序算法后,还有一个重要的任务就是评估搜索结果的质量。
因为搜索结果的好与坏是一个比較主观的过程,所以进行定量的评估并不easy。
常见的做法是通过事先选定一批查询,通过人工评估或是预先设定标准值的方式,逐个评估每一个设定查询搜索结果,终于得到一个统计结果,作为搜索算法的评估度量。
还有一类做法是直接通过线上的用户PV数据来统计评估搜索结果质量,或是通过A/B測试来比較两种排序算法的点击效果来衡量。
合理而有效的评估方法,是搜索算法能够不断改进和比較的前提。
查询分析是还有一个对搜索结果影响非常大的方面,主要任务是把用户的查询文本转换成内部的结构化的搜索请求。
涉及的处理可能包含主要的分词处理,专有名词的识别和提取,或是查询模式的识别,或是查询分类的识别。
这些处理的准确性将能极大地改进搜索请求的方式,进一步影响搜索结果的相关性和质量。
开源方案
近年来在搜索公司内部搜索系统和技术的改进和发展的同一时候,一批开源的搜索系统和解决方式也逐渐发展和成熟起来。
当然开源系统在功能全面性、复杂性和规模上都不能与专业的搜索引擎系统相比,但对于中小企业的搜索应用来说应该已经能非常好地满足需求,并且也成功应用到了一些大规模的产品系统中(比方Twitter的搜索就使用和改进了Lucene)。
如今比較常见的开源搜索解决方式有:
* Lucene
Lucene自然是如今最流行,使用度最高的搜索开源方案。它用Java开发,以索引和检索库的方式提供,能够非常easy地嵌入须要的应用中。
* Solr & SolrCloud
Solr是Lucene的子项目,同属Apache软件基金会项目;它是基于Lucene之上实的一个完整的搜索服务应用,提供了大量的搜索定制功能,能够满足大部分的搜索产品需求。
SolrCloud是Solr为了加强其分布式服务能力而开发的功能,眼下还在开发阶段,将在Solr 4.0公布。
* Zoie & Sensei (Linkedin)
Zoie是Linkedin公司在Lucene基础上实现的准实时索引库,通过增加额外的内存索引,来达到准实时索引的效果。
Sensei是Linkedin公司在Zoie基础上实现的分布式搜索服务,通过索引分区来实现分布式搜索服务。
* ElasticSearch
ElasticSearch 也是刚推出不久的一个基于Lucene实现的分布式搜索服务,据说在分布式支持和易用性上都有不错的表现。由于还比較年轻,真实的应用应该还不多,须要观 察。由于也是基于Lucene的分布式开源搜索框架,基本上会与SolrCloud和Sensei形成正面竞争关系。
* 其他开源产品
除了Lucene家族以外,另一些其他的开源产品,比方Sphinx和Xapian,也有不少的应用;但近年来的更新频率和社区活跃度都不太能和Lucene系的产品相比。
* 托管平台
除 了开源产品外,如今还出现了一些基于云计算和云服务的搜索服务,比方Amazon新近推了的CloudSearch,还有更早一些的 IndexTank(已被Linkedin收购)。这类服务无需自己布置搜索系统,直接使用在线服务,按需付费,所以也将是开源产品的替代方案和竞争对 手。
附几张上面提到的开源系统的概念模型和架构图:
[附图:Lucene概念模型]
[附图:Lucene工作流程]
[附图:Sensei系统架构]
[附图:SolrCloud系统架构]
现状与未来
传统的搜索引擎经过了十几年的发展,眼下在技术和产品上都已走向逐渐稳定和成熟,通用搜索的市场也基本进入饱和,不像早些年一直呈现高增长率。
同一时候,在各个垂直领域,也出现了非常多和产品结合的非常好的垂直搜索产品,比方淘宝的购物搜索,大众点评的美食搜索,去哪儿和酷讯的旅游搜索等,也都在各自领域占领了相当大的市场,成为除了通用搜索引擎之外的重要的用户入口。
在开源领域,各种开源产品和解决方式也逐渐发展成熟,通用搜索技术不再为大公司所专有,中小企业可以以较低的成本实现自己的搜索应用。
如今搜索引擎产品之间的竞争很多其它的在数据、应用方式和产品形态上,在系统架构和基本算法上区分并不大。
搜索引擎在未来发展上,一是搜索将不只以独立产品的形式出现,很多其它的会作为搜索功能整合到很多其它的产品和应用中。
在产品形态上,基于传统的搜索引擎,会演化出像推荐引擎,知识引擎,决策引擎等形式的产品,更好地满足和服务用户需求。
而搜索引擎所涉及和发展起来的各种技术,会更广泛地应用到各种基它产品上,比方自然语言处理,推荐和广告,数据挖掘,等等。
总之,搜索引擎对互联网技术和产品带来的影响是巨大的,未来也仍将有非常大的发展和应用空间。