当前位置:主页   - 电脑 - 程序设计 - JAVA
使用Java技术将Atom转换为RDF
来源:网络   作者:ibm Brian M. Carey    更新时间:2010-09-26
收藏此页】    【字号    】    【打印】    【关闭

RDF 包含由 W3C 制定的各种规范。它本质上是一个元数据建模框架,该框架利用 Web 上分布的软件可读信息,具体方法是通过使用一些称为三元组 的 “主语-谓语-宾语”表达式识别这些信息。

常用缩略词

API:应用程序编程接口

RDF:资源描述框架

DOM:文档对象模型

IETF:互联网工程任务组

RSS:简易新闻聚合

URI:统一资源标识符

URL:统一资源定位器

W3C:世界万维网联盟

XML:可扩展标记语言

例如下面这个英文表达式:“Perry the Platypus's arch-enemy is Dr. Doofenschmirtz.”。 在这个例子中,主语是 Perry the Platypus,谓语是 archenemy,宾语是 Dr. Doofenschmirtz。在 RDF 中,这个三元组将根据一种特殊格式编码,这种格式用于识别卡通人物和他们的主要敌人。

RDF 代表 “明天”,因为它是 Semantic Web(语义 Web)运动的一部分。实际上,它是该运动的重要组成部分。

Semantic Web 运动代表下一代万维网,其中的信息将通过语义识别。其理念是基于一种预定义格式显示数据,这些数据可以被软件和人类明确识别。想想看,这种预定义格式将使用 RDF 完成。(对 RDF 的详细分析超出了本文的范围,请参阅 参考资料 提供的链接了解更多信息)。

Atom:欢迎回到昨天

这部分的标题似乎对 Atom 不屑一顾,但事实上并非如此。相反,它意味着一种新出现的技术(RDF)和一种已经存在一段时间的技术(Atom)的对比。

Atom 是一系列基于 Web 的文档的聚合格式,它从 RSS 的固有限制开发而来。这种聚合格式通过 XML 语言表达,所以 Atom 文档即 XML 文档。

通常,Atom 文档通过一种称为提要阅读器(feed reader)的软件阅读,这种软件使用户能够查看来自一个特定站点的一些相关文档的摘要。用户可以决定要阅读哪些文件,然后只需单击相应的链接。这种 Atom 聚合格式还允许网络管理员显示站点上的提要。

但是,Atom 没有像新出现的 Semantic Web 活动那样定义便于理解的语义。为此,需要使用 RDF。

两个世界的精华

这样,问题来了:“有没有一种 RDF 规范能够利用聚合?能不能既享受语义的好处,同时又保留高曝光度的优势?”

答案是肯定的。

请走进 “另一个” RSS。这个 RSS 不是您所想到的那个 RSS,它表示 RDF Site Summary(RDF 站点摘要),以语义方式定义一种聚合格式。它允许网络管理员以 RDF 格式发布他们的文档,以便这些文档中包含的信息能够被 Semantic Web 所理解。

以 RDF 格式提供 feed 的好处在于:支持 Semantic Web 行为的资源将在其搜索结果中阅读、缓存和包含来自那些源的内容。随着 Semantic Web 不断涌现,那些采用 RDF Site Syndication(RDF 站点聚合)技术的网络管理员将发现自己置身于最新的、最先进的技术的最前沿。他们将拥有更高的曝光度,那意味着更多流量。更多流量意味着他们的广告商将给用户留下更深的印象。更深的印象意味着他们可以赚到更多钱。这肯定是一种值得投资的开发工作。

将 Atom 转换为 RDF

既然这种格式转换能够带来良好的经济效益,那么就让我们着手进行这项工作吧。本文将介绍如何使用 Java 编程语言将 Atom 文档转换为 RDF 文档。

幸运的是,Atom 和 RDF 文档都是 XML 文档,这意味着用于读取一种文档的工具将能够用于读取另一种文档。

Java 编程语言

您将使用 1.6 版 Java 编程语言编写转换代码。之所以选择这种语言,是因为它著名的 “一次编写到处运行” 的功能。您可以在拥有兼容 1.6 版 Java 软件开发工具箱(JDK)的任意平台上编译和运行本文提供的代码。

解析和创建 XML 文档的 API 是 Streaming API for XML (StAX),这是一个出色的界面,胜过了传统的 DOM 和 Simple API for XML (SAX) 解析方案。使用 StAX 时,XML 文档的解析是基于光标的,应用程序在运行过程中只使用 XML 中需要的内容。StAX 还允许开发人员创建 XML 文档。

元数据

元数据本质上是关于数据的数据,它在 Semantic Web 中的作用非常关键。它提供前面提到的三元组的识别和解释方法。

如前所述,您将对终端产品使用 RDF Site Syndication 规范。对于实现格式转换这个目的,这种规范简直堪称完美,因为它是一种遵守 Semantic Web 的聚合格式。

必须再次提起注意的是,RDF Site Syndication 格式是一种独立的规范,但它缺乏某些定义,比如日期。为了弥补这个缺陷,通常使用另一种 RDF 兼容规范,这种规范称为 Dublin Core Metadata Initiative (DCMI)。DCMI 是与 RDF 联用的最流行的 XML 语言之一。

其它资源
来源声明

版权与免责声明
1、本站所发布的文章仅供技术交流参考,本站不主张将其做为决策的依据,浏览者可自愿选择采信与否,本站不对因采信这些信息所产生的任何问题负责。
2、本站部分文章来源于网络,其版权为原权利人所有。由于来源之故,有的文章未能获得作者姓名,署“未知”或“佚名”。对于这些文章,有知悉作者姓名的请告知本站,以便及时署名。如果作者要求删除,我们将予以删除。除此之外本站不再承担其它责任。
3、本站部分文章来源于本站原创,本站拥有所有权利。
4、如对本站发布的信息有异议,请联系我们,经本站确认后,将在三个工作日内做出修改或删除处理。
请参阅权责声明