你知道有多少网页被编入Bing的索引部分却永远不会显示在顶部结果之中吗?
你知道Bing是如何通过深入了解用户的信息需求,帮助人们从网站获取知识吗?
你知道Bing是如何在云基础平台上构建从而支持数以百万计的应用程序和服务吗?
微软亚洲研究院常务副院长马维英博士,就这些重要内容和相关的初步结果,给从事网络与互联网挖掘、自然语言处理、机器学习等领域的实习生们带来了一场精彩的讲座。如果你也对这些课题深感兴趣,欢迎来一起聆听马维英博士的精彩演讲吧!
整理:廖振、宣金学
从图书馆检索到互联网搜索:飞跃与困境
演讲一开始,幻灯片上就显示出过去图书馆查阅图书的场景,马维英博士解释到,“其实我们最早的索引是从图书馆的目录开始的”,借助于目录,我们可以更快地找到相应的图书。但,随着互联网的出现,大量的网页涌现在互联网上,知识已经呈爆炸性的增长,人们获取知识的途径,也从最初跑图书馆,发展到利用搜索引擎来进行搜索。而今,人们如果遇到问题,往往要先从各大的搜索引擎搜寻一下解决方案。
目前流行的搜索引擎主要分为网络爬虫、网页索引和结果排序等几个关键部分。这种搜索这种技术有点像图书馆的“倒排表检索”,把所有互联网上的信息组织起来。直到现在,其实也还没有超出这种思路。现在我们所看到的互联网上面,大概有上万亿个网页,其中约有250亿的页面可以被检索而有可能出现在用户搜索结果里,大概只是1%~5%,也就是说,目前互联网上的所有网页中,最多只有5%的页面,用户有机会看到。而在信息大爆炸的当今,用户可能只有精力关注前100个搜索结果。如果再过10年,5%这个比例可能会迅速降到百分之零点几了。
既然大部分的计算给用户带来的价值越来越少,那么,我们能不能直接关注用户的需求?能不能像完成用户交给搜索引擎的一个任务那样,帮助用户作出决策并采取行动,而不是给用户10个链接让他们逐个打开,自己判断其中是否包含有用的信息?另外,由于绝大部分的网页用户根本看不到,那能不能将这部分搜索资源应用到更多的像应用软件在线商店这样的细分领域?因此,如何让用户更满意,更喜欢用微软开发的搜索引擎Bing,则是我们研究院从事该方面研究工作的研究员和实习生们密切关注的问题。
下一代搜索引擎:“3”个改变与“5”个方向
就下一个阶段的互联网搜索,马维英博士提出了下面一些新颖的观点。
(一)
(二) 用户的搜索行为的改变:当前的搜索引擎,仅仅接受用户输入的几个关键词语,就返回给用户结果。除了让用户输入关键词,我们还可以让用户提供一些其他信息,比如简单的语音,简单的构图,这些在搜索语音和图像时候,往往非常管用。马维英博士还当场展示了几个对应的demo。
(三) 结果呈现的改变:目前在网页搜索中,我们对于一个用户提交的查询,都是返回前十个网页,这似乎已经形成了习惯,而导致大家都不希望去改 变它。而我们研究院最新的一些研究成果,已经可以在很多方面提升用户的体验,在用户搜索一个关键词的时候,把该词语作为一个实体,将其各个属性都输出给用 户,例如输入“中国”,我们可以提供人口、国土面积等信息。
基于此,我们从五个方向对未来搜索引擎进行了的战略性思考。第一是从组织所有的网页信息,到直接关注用户的搜索目的。搜索引擎一开始的目标是希望组织所有的页面,这个概念非常强大,但有弱点,而且现在的效率已经越来越低。因此要通过做需求理解(Intent Understanding) 来关注用户的需求是什么,而不再是关键字搜索;第二是建立知识库,利用各式各样的挖掘技术,把结构性的Web中的对象 (entity) 关系抽出来之后,以知识的方法来表示;第三是语义的检索与任务完成,也就是帮助用户完成任务的搜索;第四是从搜索内容走向搜索应用和服务;第五是云平台和建立生态系统,在这样的生态系统中,会有更多的开发人员创建自己的微应用和微服务。
微软下一阶段的搜索策略:“云+端”平台的整合
在搜索之外,对于另外一个热门的话题“云计算”,马维英博士也说出了自己的看法。他说道,微软在云计算的道路上已经迈出了自己的步伐,将Windows操作系统都搬到云中去了,这意味着,以后我们可以利用一根网线,控制自己的操作系统,并且获得云中的服务。
其他的大型互联网公司都有自己独特的云。总体来讲,目前的云存在如下几类:第一种是信息云(Information Cloud),目前的几家主要的搜索引擎供应商是该领域的领导者;第二种是社交媒体云,比如Facebook之类的网站中,包含了相当多的用户数据;第三种就是娱乐云,比如XBOX
而从搜索应用的切入角度看,最有希望和机会的是社交媒体搜索。搜索会与社交网络发生更多的融合,比如通过Facebook找人与人的关系,微软亚洲研究院开发的“人立方”关系搜索引擎,纯粹是机器自动抽取数据和信息,而这些信息全是Facebook上的用户手工产生的,这无疑将会得到非常全面的关系图谱。
PC已发展了30年, 直到今天还有很多数据是以“孤岛”的形态存在你的手机里、即时通信软件里、在图片库里等等。“云+端”可以连接所有的数据、设备、应用和服务,最终连接所 有的人和事件。数据是核心,“云+端”平台的整合,就是要把人类社会历史上的最后一公里走完。这也是我们所正在面临的一个历史机遇。其下一步就是所谓的自 然用户界面,比如“云+端”的界面,这会让任何人都更加便捷地像使用搜索引擎那样拥有超级的计算能力。
那么“云+端”平台的整合,意味着把一台超级电脑摆到每位 用户面前,将来的潜力会是无比巨大的。其实,任何关于未来的预测都是很困难的,不过有一点非常明确,那就是,整个转变的进程已然开启,并且无法逆转。这意 味着,无论是硬件还是软件,无论是互联网还是移动通信领域,都正在面临同样的历史机遇。
精彩问答:Bing的超越之道
整个演讲,原本预计是一个小时,由于在提问环节,大家的兴致很高,踊跃提问,马维英博士也进行了一一的回答,以致演讲持续了将近两个小时才结束,最后还有几位没有来得及发问的同学也在之后与马博士讨论起来。其中有一位实习生向马维英博士提问道:“在搜索领域,你认为微软Bing搜索引擎如何才能提高竞争力呢?”
马维英博士回答说,我记得就这个话题,鲍尔默曾经谈到三点,我觉得比较有意思,可以分享给你们。
第一. 做的比你的对手更好。就目前来看,各个大的主流搜索引擎,很难说谁比谁好,往往用户对于自己搜到的成功查询,不会记住,而假使搜索引擎A没有提供自己希望的答案而引擎B提供了,就会转向搜索引擎B。这种搜索引擎之间的切换,在用户当中是经常出现的,对于某一些查询,A可能更好,对另外的一些查询,可能B更好,总得来讲就不好评估。另外一方面,用户往往会由于习惯问题,导致使用某一种搜索引擎,除非该引擎结果很糟,他才会转变到另外一种上面。
第二. 卖的比你的对手更便宜。当今搜索引擎已经是免费的了,不可能再便宜了,当然,我们也可以采取一些措施,比如在微软的搜索引擎上搜索某些商品进行购买时,有可能返还用户小额现金(只是一个假设而已)。
第三. 做你的对手最不愿意做的事情。这个对不同的对手而言是不一样的,比如当前主流的搜索引擎是以十个搜索结果的列表作为返回页面,由于用户 习惯了这种显示结果,往往搜索引擎是不会去改变的。而对于我们而言,是不是可以改变这种列表方式的呈现,比如我们得到一些更加精确的,经过数据挖掘得出的 更立体化的结果,直接呈现给用户,可能会让用户更加满意。
在微软亚洲研究院,这种以实习生为主,推动和拉近实习生与研究员、研究院的管理者们的活动,是很常见的,实习生们甚至可以邀请自己感兴趣的研究员,来一次座谈会,例如实习生中颇受欢迎的“Tango有约”活动就是如此,一方面,研究员们可以就自己的研究,以及人生的经历,对实习生门进行传道授业解惑,另一方面,接触到实习生,也可以让研究员回想起自己以前的学习、工作和生活,让自己的心,年轻起来。