zoukankan      html  css  js  c++  java
  • 我对于未来搜索的看法

    一、 未来的搜索的目标会渐渐从搜索网页转向搜索XML格式的信息
            目前网上的搜索,实际上是从Internet中获取信息。因为信息是有价值的,所以提供此类服务的Internet服务商是一定会赢利的。

    二、 COM有接口,数据也应该有接口
            每个COM 都会向外界暴露接口,程序员通过接口调用COM。数据也可以向COM一样,向外界暴露出自己的接口,数据的接收者根据提供的接口读取自已关心的信息。
            数据的接口是什么样子的呢?参考一下COM的接口技术:COM的接口实际上是函数名对函数代码地址的映射;数据的接口应该是数据项名称对数据的读取路径的映射。
            总结起来,数据的接口应能提供两个功能:1. 告诉读者本数据包含哪些数据项  2. 如何读取它们----也可以看成是提供读取它们的路径。COM的接口由GUID来唯一地标识,而数据接口也应由类似于GUID的值来唯一地标识。

    三、 XML格式有一个与生俱来的优势:自描述

    一个XML格式的数据可以在首部放置额外信息,告诉读者它所实现的数据接口。上面说过数据接口应有全球唯一的标识符,应该用XML命名空间用来充当GUID的角色。 任何数据接口都有一个全球唯一的XML命名空间。                       

    四、 用XML实现数据的接口
            在一个XML格式的数据内,任何数据项都可以用XPath 来定位。用XML实现的数据接口就是告诉读者每个数据项的XPath路径。凡是实现某个数据接口的XML数据都应该依照数据接口定义的XPath路径组织自己的数据元素。
            换而言之,凡是声明实现某一接口的XML数据,读者都能用该接口的XPath路径读取所以该接口所定义的数据项。

    四、 Web网站提供网页,WebService站点提供XML格式的数据
            如何提供XML格式的数据呢?用XML WebService,XML WebService可以由IBM的平台来提供,也可以由.net实现,也可以由SQL Server2005实现。
           
    五、 XML格式的数据与网页一样都可以用一种地址在全球网络中定位
            一个网页有它的URI地址,通过URI地址可以定位到该网站并从中取得网页。一个XML格式的数据也有它的URI地址,通过URI地址可以定位到它所在的WebService站点,并从中取得它。

    六、 数据的接口体系可以也应该是全球统一的,由某个全球组织制定管理
            数据的接口体系应该由某一个全球组织来制定并管理,比如W3C。

    七、 网页上超链接,XML格式数据也有“超链接”
            XML格式的数据的“超链接”应称为引用。整体数据可以有引用,数据中的某一项数据也可以用引用。比如,学生数据可以引用相应的居民信息,学生的毕业学校数据项可以有大学信息的引用。

    八、 对于全球网内的XML数据资源,以全球统一接口可以读取其中任意一项数据元素,当然搜索则可轻易实现
            以上七项均具备后,假设一个场景:从互联网中的某些个种子URI出发,获取相应的XML数据,根据XML数据的附加的引用(相当于网页的超链接)遍历整个互联网。由于每个XML数据都声明了所实现的接口,因此可以通过接口读取各个数据项。
            这样可以建立一个 (接口)-(数据项)-(关键字值)-(URI)的索引表。举个例子:
        (人口信息)-(姓名)-(王二)-(URI,URI,URI....)   

    九、信息展现方式
            终于从数据的汪洋大海中得到了想要的信息了,如何展现给用户呢?用XSLT样式表。

    十、 由BT种子联想到的一种搜索模式
            为什么要将搜索的重大任务交给几台可怜的服务器呢?参照BT的方式,可以将整个搜索网络分为搜索代理与搜索服务器两部分。搜索代理接收用户的搜索请求但并去搜索,而要将搜索请求转发给若干个搜索服务器,然后收集搜索结果并展现给用户。
            搜索引擎服务商可以只提供搜索代理服务器,然后吸引更多有实力的公司加盟,加盟公司提供搜索服务器。当搜索引擎服务商搜索代理服务器接到客户的搜索请求后,将请求发给加盟的(已注册的)搜索服务器。


    以上是本人的一些想法,让我们一起讨论,提出更好的方案吧。谢谢关注。

  • 相关阅读:
    Tomcat,Weblogic,WebSphere,JBoss四种服务器简单对比
    最常用的动态sql语句梳理——分享给使用Mybatis的小伙伴们!
    "Invalid bound statement (not found): com.sitech.admin.dao.TbOpenAbilityInfoDao.findAbilityReadyUp"mybatis配置文件bug
    "Cannot convert value '0000-00-00' from column 2 to TIMESTAMP"mysql时间转换bug
    你一定要知道的关于Linux文件目录操作的12个常用命令
    超实用,你get了吗?再也不怕本地文件更新到环境用Linux命令重启服务器了。。。
    最长连续公共子串、最长公共子串(可以非连续)、最长回文串(连续)、最长回文串(可以不连续)、最长递增数组的求解
    显示锁(ReentranLock)
    对象的共享
    线程安全性
  • 原文地址:https://www.cnblogs.com/chengxin1985/p/316366.html
Copyright © 2011-2022 走看看