因特网已经发生了巨变,从静态企业 Web 页面集合发展成了可即刻互动的 Web。一场革命迫在眉睫,将会为人们带来使用模式和经济模型的转变。其背后的驱动因素就是新一类易于创建的用户友好型特定任务专用电子产品,以及能够分析 Web 信息,迅速获得所需信息的设备。换句话说,设备可根据使用环境进行优化,从而产生总体上称作语境 Web 的创新产品与服务。
这类新产品与服务兴起的原因,是有必备的现成技术和提供因特网相关软件与服务的较低进入门槛两个因素共同作用的结果。在激烈的竞争中,靠技术起家的企业在激烈竞争中,不断参与到基于 Web 的服务的不断演进之中,并以此吸引用户,但许多企业却因为用户群已习惯于免费获取 Web 上的数据,无法产生收入来源而倒闭。新增一个硬件组件(信息家电)可实现完整的产品体验,让消费者感到购买它们物超所值。
消费者变成参与者
在最初的因特网繁荣期,信息一般是通过阅读 Web 页面或下载文件获取的,由运行给定网站的机构、公司或个人提供内容。用户享用的是单向服务,获得的是现成的信息。
几年前可供大量用户使用的互动式、参与式功能的出现,标志着向Web 2.0 的重大转型。从这时起,用户就可在 Web 页面上进行双向交流,创建和共享内容。用户驱动型 Web 网站的典型实例包括 YouTube、Facebook、MySPACe、Wikipedia、FlICkr 以及 Digg。在过去几年里,由于互动特性的增强,Web 已经显著改变了人们与家人、朋友以及同事联系的方式。
尽管不同来源的数据量正在与日俱增,但用户仍继续在“围墙花园”中工作。“围墙花园”这一网络用语是指那些应用与信息的孤岛。例如,提供给社交网络 Facebook 的数据一般与提供给其它社交网站或专业网站的数据是隔离开的。用户对每个网站的管理都是分开的,登录进入私有数据、提供不同的“朋友”群体,并且一次只能访问一个站点的数据。
试图通过 API 来统一高墙隔离信息的努力正在受到服务提供商业务模式的限制,因为他们想控制用户界面的门户网站外观,以产生广告收入。更加独出心裁的方案是将广告稍微更醒目地放在内容中间,但对消费者有限注意力的根本性争夺实际上在消费者和对他们最有价值的信息之间形成了障碍。
目前,技术上已经可以实现那些有价值的数据在同样是内容创造者的用户之间实现自由共享。OpenStreetMap.org 就是一个范例,可让消费者使用 GPS 日志及其 Web 浏览器的互动式会话对地图进行更新。随着时间的推移,其产生的数据便可提供一种有价值的资源,且无需将整个成本负担分摊给任何个人或机构。
信息家电可一方面可协助消费者对Web数据有所贡献,另一方面又让消费者能够充分利用 Web 上的数据。这种设备的重点是用户体验,可加速将有价值的数据创建到所提供的信息服务中。
语义 Web
语义 Web 是用来拆除“围墙花园”高墙的根本性努力,支持所有信息的同步使用。今天,个人可以访问 Web 页面,迅速解读其内容,确定是否有感兴趣的信息。在查找普通信息的时候,许多人不会耐心地在搜索引擎上完整地搜索每个 Web 网站,而只是查看最初的初始结果。由于只看最早的结果,消费者找到符合自己需求网站的概率受到了限制。现在这种情况已经可以避免,因为已经提供的基本技术可以让计算机按照预先确定的规范搜索整个 Web,查找用户相关信息。
理想情况下,下一个重要步骤就是让网络作为一个大规模的应用运行,使其可在没有位置限制的条件下访问各种文本、影像、视频以及其它信息。这就是语义 Web(也称为 Web 3.0)的最终“梦想”,即 Web 上的所有内容有如存储在一个巨型数据库中,都可进行访问。在这一构想中,专业化搜索引擎、电子设备或电器不但可跨越所有 Web 站点理解所有内容,而且还能够以一种定制的用户友好型方式去分析和呈现所有在Web 上散播的信息。
通过把所有因特网内容放入语义 Web 框架,可以让应用理解如何使用数据库条目提取信息,甚至可以使用访问控制来帮助用户排除剪切与拷贝信息等大量简单任务带来的困扰。当客户在 MySpace、Facebook 或者 Flickr 等社交 Web 网站上同步并发布您的相片时,所有符合条件的接收人无需使用特定的服务,便可按需收到通知和数据。并且这些照片无需手动点击下载,因为它集成了相应的照片管理应用技术。
值得一提的是,语义 Web 本身不是一种应用或一种物理设备;它是通过采用一套不断发展的规范所要表达的内容。它可帮助人们及设备在 Web 上查找和使用信息,但信息库和数据提取硬件或软件之间必须要有通用词汇。只有采用一致的词汇,才能搜索无限的资源,从而去帮助信息消费者 — 甚至机器把重点放在重要信息上,而不用去考虑它是何种来源或何种类型的素材。
通用词汇
那么为什么该语义 Web 的愿景还有待实现呢?最艰巨的任务是让 Web 出版商和信息消费应用或设备的开发商能够在共享的数据类型以及如何验证这些数据的接收人这两点上达成一致。
通用词汇这个难题是逐渐被认识到的。在当前基于 HTML 的 Web 文件中,表达信息以便机器读取的途径是有限的。为了进一步提高效率,设计了一种被称为资源描述框架属性 (RDFa) 的方案,它的特点是可一步到位的发布信息,从而淘汰了分两步的操作。有了 RDFa,定制词汇在 Web 文件中就能够提供机器可读的数据。
RDFa 方案已经在运行中。例如,雅虎近期推出了 SearchMonkey 工具集,开发人员便可用来创建通过 Web 页面提取和呈现数据的定制方法。
在 RDFa 的帮助下,雅虎 SearchMonkey 可理解多种不同的词汇,包括日历事件、联系人、地址、位置、评述、朋友、综合性更新以及简历等。此外,为了增强搜索结果的视觉外观,SearchMonkey还可帮助 Yahoo!Search 发现更为详细的内容,比如无需逐个访问求职和社交网站便可找到您周边众多具有 RDFa 体验的个人简历。通过使用 SearchMonkey,开发人员和网站所有人可使用结构化数据让 Yahoo! Search 的结果更加实用,更具视觉吸引力,从而为其所属网站带来更大的相关访问流量。