最近看了一点资料,从两个方面谈一下与Semantic Web的Bootstrapping相关的两种很热的技术发展现状:语义标记和语义浏览。
一、语义标记:RSS,XHTML,Microformat,GRDDL
RSS是一种XML格式的新闻摘要信息,如下面:
<item>
<title>book</title>
<dc:creator>Alice</dc:creator>
</item>
<title>book</title>
<dc:creator>Alice</dc:creator>
</item>
现在,RSS已经用得非常广泛了,RSS聚合器是我们用得最多得,它可以订阅我们需要的各种新闻、Blog摘要等。这一切仅仅得宜与一种被大家普遍认可的格式。
Google Base可以以RSS格式直接发布,可以使用Google base自己命名空间中的标签。
而XHTML是将XML和HTML结合起来的思路,让HTML既能够描述呈现相关的格式,也能够增加任意的XML标签,从而可以直接表达任意的XML内容,这样,就有可能将各种类似RSS的XML格式,比如FOAF,hCard等直接写在网页源文件中,聚合器的处理对象将就是XHTML文件了。这样不是更方便吗?从语义网的角度看,实质上就是在XHTML格式之上建立统一的语义标注规范。
微格式以及现在出现的结构化Blog,基本上就是这个作用。现在微格式还没有形成一种标准,将XML内容建立在XHTML格式之上也有两种方法,一种是利用class属性,如下面的xhtml代码所示:
<div class="column" id="column-book">
<span class="title">book</span>
<span class="author">Alice</span>
</div>
<span class="title">book</span>
<span class="author">Alice</span>
</div>
这种方法丧失了XML本来的面目。
另外一种方法,就是在script 标签中“嵌入”XML文档,如:
<script type="application/x-column; charset=utf-8">
<column alternate-for-id="column-book">
<title>book</title>
<author>Alice</author>
</column>
</script>
显然,这种方法会更加自由,但是,现在的浏览器还不支持这样的格式。<column alternate-for-id="column-book">
<title>book</title>
<author>Alice</author>
</column>
</script>
有了XHTML,那么如何将XHTML中的XML文档转换为RDF文档的呢?GRDDL就起这个作用,它的全称是Gleaning Resource Descriptions from Dialects of Languages ,直观的理解就是你可以从纯HTML的文档中获取RDF文档。假如像这样的规范和处理工具成熟起来,RDF数据源就将铺天盖地了。