最近看了一点资料,从两个方面谈一下与Semantic Web的Bootstrapping相关的两种很热的技术发展现状:语义标记和语义浏览。
一、语义标记:RSS,XHTML,Microformat,GRDDL
RSS是一种XML格式的新闻摘要信息,如下面:





现在,RSS已经用得非常广泛了,RSS聚合器是我们用得最多得,它可以订阅我们需要的各种新闻、Blog摘要等。这一切仅仅得宜与一种被大家普遍认可的格式。
Google Base可以以RSS格式直接发布,可以使用Google base自己命名空间中的标签。
而XHTML是将XML和HTML结合起来的思路,让HTML既能够描述呈现相关的格式,也能够增加任意的XML标签,从而可以直接表达任意的XML内容,这样,就有可能将各种类似RSS的XML格式,比如FOAF,hCard等直接写在网页源文件中,聚合器的处理对象将就是XHTML文件了。这样不是更方便吗?从语义网的角度看,实质上就是在XHTML格式之上建立统一的语义标注规范。
微格式以及现在出现的结构化Blog,基本上就是这个作用。现在微格式还没有形成一种标准,将XML内容建立在XHTML格式之上也有两种方法,一种是利用class属性,如下面的xhtml代码所示:





这种方法丧失了XML本来的面目。
另外一种方法,就是在script 标签中“嵌入”XML文档,如:







有了XHTML,那么如何将XHTML中的XML文档转换为RDF文档的呢?GRDDL就起这个作用,它的全称是Gleaning Resource Descriptions from Dialects of Languages ,直观的理解就是你可以从纯HTML的文档中获取RDF文档。假如像这样的规范和处理工具成熟起来,RDF数据源就将铺天盖地了。