W3CHINA.ORG讨论区--语义网的产业化[持续更新中]

Web3.0:互联用户产生的结构化资源
http://blog.baojie.org/2011/05/03/web3/

Web3.0就是互联用户产生的结构化资源

Jie Bao

2011-05-03

==Web1.0和Web2.0的成功==

Web的成功，来自它是“Web”：它将资源互联起来。HTML,HTTP, URL这些东西是Web应用早期的支持技术，但是它们不是Web本身。后来的Web应用，比如QQ，P2P，GoogleMaps，它们用了很多更新颖的通信技术，并不是说，浏览器里的应用才是Web应用。用了HTML或者别的标记语言(Markup Language)的应用，如果不遵循Web的互联原则，它不能算Web应用：比如Latex（至少到目前为止）。

Web 2.0的成功，来自它增加了资源的来源。Web 1.0时代，资源主要来自少数网站的编辑。Web2.0使每个人，只要会使用计算机，都可以成为资源的提供者。一个新的资源（比如一个新的Tweet），又会激发其他的资源被产生。这里面最主要的技术，我以为是Web Form(表单)：表单使用户不需要知道HTML或者服务器设置就可以发布资源。

==Web2.0到Web2.5==

在我看来，论坛（Forum, BBS）这种形式就已经是Web 2.0了，中国的Web时代开始于90年代后期，赶上了Web1.0时代的尾巴，而论坛大行其道一直到现在，这就是Web 2.0，比什么Wiki, blog, microblog都成功。美国这边BBS不发达（相对中国），email list, usenet当年是主流，所以后来有了social web，觉得新鲜，其实中国大学生泡妞早就用BBS了：请比较美国电影《电子情书》（ You’ve Got Mail，1998）和同年的小说《第一次亲密接触》，你会发现美国泡妞和中国（小说是台湾的，大陆也一样）泡妞技术手段有代表性的不一样。到今天，天涯论坛的影响力还是开心网不能比的。

Web 2.0被称为social web，有些人认为是因为它将社会关系引入网络故而成功。我以为，社会关系是web 2.0已经成功以后的添加剂，如果依然使用HTML来发布资源，社会关系是无法大规模映射到网络上的。有一种观点：一个失败的Web公司建一个网站，一个成功的Web公司建一个社区。社区的构造，并不自Facebook始，也不自实名制始。社会关系的引入，是个人化了原有的社区，论坛等，使原来不适合在大众场合发布的资源（比如：“我现在在吃早饭”），现在合适了，这就激发了资源的发布。资源数量的增长，使大规模的和用户相关的数据分析成为可能，从而激发了新的商业模式和盈利手段，使这个过程可以良性循环下去。

那为什么Facebook和Twitter抢了大量的眼球而不是传统的论坛（以至于电影《Social Network》就是讲Facebook）？因为他们意识到了传统的交互式发布手段所忽视的一些东西：关系。这些关系，可以是人的关系（比如朋友，比如关注），可以资源的关系（比如回帖，比如附件），可以是人和资源的关系（比如发布，比如喜欢）。早期的社交应用，比如QQ或者BBS，坐在这样的宝山上不知道用，把这些关系本身隐藏着在他们的系统的零零散散的地方。Facebook和Twitter将这些都打破了。对商业来说，你用户说了什么其实不最重要，你和其他用户或者某种产品的关系才是重要的。Facebook和Twitter提供了这种资源采集的手段，作为Web上的“关系”的传感器，绕过了机器学习或者自然理解这些复杂的手段，直截了当地使资源被利用。从这个角度讲，Facebook这一代应用应该称为 Web 2.5。

==什么是Web3.0==

Web 3.0，并不是语义网，更不是RDF/OWL。我觉得，这个核心就是如何促进更多的资源被加入正循环：更多资源，更多商机，更多资源… 之所以我们需要高质量的资源，是因为高质量的资源包含更多的商机（相对成本），而不是因为我们喜欢高质量本身。比Web 2.0或者Web 2.5时代实现资源采集和使用方式的本质变化的，就是Web 3.0。

其实Web3.0时代已经开始了，和所有的技术演进一样，它是悄悄的，不经宣传的。它也通常是不经规划，而通过对成熟技术的整合而出现的。事先的规划未必有效，发展的动力未必是技术的追求。对代的变化，应着眼于资源生态链的模式变迁，而不是一种具体的技术手段。

尽管Web3.0的最终模式我们不可预料，它早期的一些脉络，我们或可管窥。

首先，Web 3.0将是对Web2.5的一种演进而非革命。正如Hendler在Web 3.0: Chicken Farms on the Semantic Web里讲的，Social Web有助于Semantic Web所需要的数据发布手段。Web 3.0上的资源，最大量的，还是人们日常生活中的那些活动和资源在Web上的映射。比如我们在哪里买东西，买了什么，我们和谁打电话，我们在路上看到什么。这些，现在大家在Facebook和Twitter上都在做。Web 3.0将以一种前所未有的方式将更多有用“没用”的数据弄到Web上来。谁忽视这些“没用”的数据，谁就会失去商机。

其次，Web 3.0上的资源，必然需要一种门槛更低，更方便的发布方式。Web 1.0时代（HTML时代）的数据发布者大概不过几千万人。Web2.0时代（表单时代）在十亿人规模。Web3.0时代（传感器时代），要将世界60亿人口中绝大多数都变成数据的发布者。这个方式的雏形，现在是利用手机之类移动平台。手机作为全方位的传感器：文字，语音，图像，光线，重力，时间，空间（GPS），姿态，压力，方向，加速度…….是极佳的数据采集平台。而且，它对使用者的要求远比计算机低，使文盲和老人都有可能参与进来。手机的意义，就如同当年表单的引入，使资源发布的规模出现数量级的变化。不仅有硬件的传感器，还有软件的传感器：用户在终端上的行为会被详细记录，经过某种优化、过滤和隐私保护，自动发布到Web上形成有价值的数据。以后有什么更新颖的方式，不可预料。

又次，Web 3.0上的资源，将不仅仅是文字，图像，视频这些传统的资源，而且会有更多的非传统数据，比如GPS位置，比如速度，比如背景噪声。通过这些数据的分析，并利用Web 3.0上其他的数据，商家（在一定隐私保护条件下），可以推理出，某人正在接孩子上学，某人正在开会，某人和某人是同事等等。这些信息，对商业的意义，不言而喻。

这些Web 3.0上的新资源，天然是结构化的。我们身边结构化的数据并不少，比如我们回邮件，邮件之间有“回复”关系。可惜这种关系通常被浪费了，你要在一堆”RE”,”RE RE”中来阅读查找，而不可以查询。Web 3.0将充分使这些用户产生的数据用一开始就是结构化的，而不需要依赖并不成熟的AI技术来从非结构化数据中获取结构化数据。这种数据，使我们对它做语义的标注和推理成为可能。比如我们可以通过用户历史GPS位置采样和商店的分布数据来推理他的购物偏好。从这个角度，语义网将成为Web 3.0的一个支持技术。但语义网的大规模应用，将是在用户产生的高质量结构化数据成为现实之后，而不是之前。目前的语义应用，很多只能称为语义技术的应用，而不是语义网的应用——正如Latex是标注语言的应用而不是Web的应用。

==从动作到资源==

Web 1.0 和Web 2.0时代的资源，大多通过鼠标和键盘建立。Web 3.0时代，只需要更少的努力，就可以将资源发布。所有的动作，都可以产生资源，主要是各种数据。

不仅手机将是这种资源的来源，人的各种行为都将容纳到Web资源的发布中。比如电视节目的选择和查询。又如带wifi的体重仪，可以将体重自动发布到用户的健康监督网站，甚至自动发送给他的医生。又如通过带有3G和GPS的车辆，Web用户将精确地知道发生交通堵塞的地点和原因和各路段的平均速度。其他如电表，冰箱，跑步机，婴儿床，都可能成为数据的来源。

各大网站目前都在做用户行为数据的收集。但是，这些数据被作为私有资源，提供数据的用户本身并不能从中得到直接利益。这种模式不利于刺激数据的产生。只用当用户的数据被以某种方式安全的方式互联，并直接反馈利益给用户，数据才会以前所未有的速度产生。

P.S. (2011-05-19) 上面说的，有读者认为类似“物联网”的概念。我认为，物联网本身并不是我试图推销的概念。关键，是合理的记录用户的行为，自动产生有价值的数据。传感器是一种有效的方式，还可能有很多其他的方式，试举几个生活中的例子

我在查询一个研究方向的过程中，下载了很多文章，然后将这些文章归档，建立页面并加链接到Bibtex。有时，还要搜索作者的个人主页。这些工作，很多完全可以自动化，在我浏览的过程中可以通过记录我的行为完成，并加以部分的数据集成（如从DBLP）
每年报税的时候，一年中所有的收入和交易应该自动汇总，而不需要报税人手工输入。
==数据之互联==

用户所产生之结构化数据，需要在不同Web应用之间建立关系。我搬一次家，要在上百个网站修改我的家庭地址（一种结构化数据）。我所有的web login，打印出来起码有10页纸。整合此类数据的跨系统集成和重用，被很多人认为是Web3.0的特征之一。

这种互联，比如Facebook就在做。OpenID做了很多年，不成功，因为它缺少背后的商业利益。Facebook的互联，形成了一种可怕的数据集成力量。这种力量可以用来做非常多的事情，正面或者邪恶的。

用户行为产生的数据，将可以和某种知识库相联系，如电视可以和IMDB相连，ATM可以和Yodlee相连。由此，可做某种简单的查询和推理，例如列出今晚各频道所有有中国血统演员的电影。或者进行推荐。其间用到的推理，一般会是极简单的规则（如分类树），但需要实时的响应。

==什么不是Web3.0==

Web3.0现在是一个流行词（Buzz word）。本文只讨论Web3.0上资源的一些特点，Web3.0还有很多其他可能的特性，并未涉及。但有些技术，并不可视为Web3.0的核心特征。他们和Web3.0或有相关性，而非因果性。

云计算和网络存储（从BBS时代开始，就已经“云”了）
实时网络（实时性乃是数据采集方式变化的另一个结果）
智能网络（所谓的复杂的推理和agent技术，并不是Web3.0的必要条件）
物联网（Web3.0需要数据来自用户的行为，数据发布自动化；传感器是一种方式，但未必是唯一的方式）
==总结==

本文认为，Web的代际演进，核心问题是资源的发布和利用方式的变化。Web 3.0将是在现在的Social Web的基础上演化出来的新的资源生态模式。其支持技术包括资源发布技术（如手机），资源采集范围（如地理位置）和资源集成方式（如语义网和推理）等。新资源发布和利用方式和新商业盈利模式的良性循环互动，是其成功之关键。


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	111.328ms