新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     >>W3CHINA.ORG讨论区<<     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWLW3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → Evolving Web, Evolving Search 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 24826 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: Evolving Web, Evolving Search 举报  打印  推荐  IE收藏夹 
       本主题类别: Ontology Engineering    
     whfcarter 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机学士学位(贵宾)
      文章:143
      积分:2145
      门派:XML.ORG.CN
      注册:2005/3/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给whfcarter发送一个短消息 把whfcarter加入好友 查看whfcarter的个人资料 搜索whfcarter在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看whfcarter的博客楼主
    发贴心情 Evolving Web, Evolving Search

    最近发现版上大家对于语义搜索进行广泛而热烈的讨论,我想以此篇帖子作为开篇来谈谈我对搜索特别是语义搜索的看法。随着Web的不断演化,各种数据也逐渐出现,而搜索作为有效的工具可以使得用户快速找到相关的文档甚至答案,从而避免用户淹没在海量的数据或信息中。在不同Web时期,用户对于搜索的期望不同,基于不同数据的搜索形态使用的技术也不完全相同,这样搜索的技术以及其应用也是在不断演化和进步的。这就是本贴题目的由来。下面分别从Web 1.0的特点,对搜索的需求以及典型的搜索应用出发给大家做一个介绍。

    Web 1.0是由网页组成的,这些网页一般都是由纯文本构成,使用超文本标记语言HTML。它的特点是:1) 网页的数目非常大,而且不断地迅速增长。Google作为这个时代最有影响力的搜索引擎,虽然已经索引了十多亿张网页,但这仍然只是互联网络信息海洋中的很小一部分。而一些实际的测量结果表明:每周,互联网上的网页大约会有10%是全新产生的。这样大的数字,这么快的增长规模;使得任何一个人都无法单独的浏览完所有的网页。因此,出现了搜索引擎,帮助大家快速检索到需要的资源。2) 网页上的文字,最终是给用户阅读的。也就是说,这些文字在计算机看来,除了是一些特定的ASCII编码以外,并不知晓其中真正的含义。不论是上面的新闻、或者是笑话、亦或是图片,这些页面只有被广大的互联网用户浏览了,才起到了信息传播的作用。3) 由于HTML语言的特殊性,它除了一般的文本和图片等信息外,还包括一种超链接信息。使得网页之间相互连通。

    针对上面这些特点,这个阶段的搜索引擎主要考虑的问题是:
    如何进行网页爬取?使系统能够尽可能多地收集网页的数据。
    如何提高搜索的相关度?使得用户输入一个简单查询以后,可以在第一页的最前几条就是用户希望找到的信息。进一步的问题就是如何对网页进行排名。
    如何使得搜索的交互尽可能地简单明了。因为只有简单的交互才能吸引更多的用户。

    这一个阶段的搜索功能(包括商业的搜索引擎和学术界研究的搜索引擎)主要有:
    通用搜索引擎,像百度、Google这样的;
    垂直搜索引擎,是针对某一个行业或某一领域的专业搜索引擎,如专家搜索,根据用户输入的研究领域或者技能,在给定数据集甚至在开放的Web上找到相应的专家,近几年,TREC Expert Search Track得到了很多关注也得到了长足的进步。另一个例子是事件搜索和跟踪,输入对某一个事件的描述,返回事件的一些详细信息以及出处,同时展现在时间和空间的分布等。
    元搜索引擎,它在其它搜索引擎的结果中进行后续处理,是一种调用其它独立搜索引擎的引擎。最常见的包括搜索结果聚类,通过获取某一通用搜索引擎的前100个结果(考虑网络的延迟和开销,仅取top的相关结果),根据特征抽取和相似度比较进行flat或者层次化聚类,将相似的结果合并在一个cluster中,并给用户可读的cluster label信息。

    最近两三年里,Web2.0的出现给互联网带来了新的活力;使得互联网经济在2001年泡沫破裂以后得以复苏。而且成为近期的一个热门话题。在我们看来,Web2.0融入和社会化的理念,使更多的用户能够很方便的在网络上发布信息,它的出现扩大了Web的用户群。

    把原来的传统Web称为Web1.0的话,对比Web2.0,我们就可以发现:
    1) 原先在Web1.0上,只能由懂技术的人发布信息;现在在Web2.0上,则是由懂技术的人提供平台,鼓励更多的用户来参与一起发布信息;
    2) 原先在Web1.0上,个人用户只能通过建立个人网站的方式来发布自己的信息。虽然这吸引了很多用户自学HTML、CSS、ASP、JSP、PHP等语言来编写自己的网页,但是依然有绝大多数用户不会使用这些技术。而Web2.0提供了很多丰富的平台,用户需要做的只是要去申请一个博客,然后通过轻点鼠标来定制页面,再写下自己想要发布的信息,就可以了。
    3) 原先在Web1.0上,多个用户进行协作编写文档,需要Content Management Systems,这些系统通常都有专门的程序,需要部署以后才能使用;而且设置麻烦。而在Web2.0里面就可以通过建立维基站点来完成。
    4) 有了维基系统,原来的在线百科全书的功能就被Wikipedia部分取代了。原来的百科全书是由专家修订的,对新鲜事物的接收过程比较缓慢;而在Wikipedia中,借助全体网民的力量,许许多多最新鲜的概念都能在这里面查到;做到了名副其实的百科全书。
    5)原先在Web1.0上,有一种目录服务(如Yahoo的Directory),就是通过专家把网址归类的方法,让用户进行点击浏览;在Web2.0中,这些归类的不再是专家了,而是普通用户;而归类也演化成添加社会化标签(Social Tagging,在del.icio.us和Flickr等中体现)的方法。
    纵观这些Web2.0带来的新事物,我们可以看到Web的技术壁垒被不断降低;对用户专业技能的需求也越来越低;用户群越来越大。

    相对应的,在Web2.0上面作搜索就需要考虑如何把用户的参与考虑到搜索中来。其典型的搜索应用包括博客搜索、维基搜索和使用社会化标签搜索等。博客不仅仅是网页那么简单,除了内容以外,写博客的那位“博友”通常都会有一些特定的偏好,或者说是兴趣;他在博客上围绕自己特有的兴趣写博文。因此,给搜索带来一些新的东西。我们可以根据兴趣,主题来进行搜索,同时可以看到相关兴趣以及他的社会化网络(即具有相似兴趣的其他博客)。维基百科利用群众的力量编辑获得大量高质量的结构化信息,其中类别信息由于覆盖面广和粒度适当,被用于各种目录浏览,也被用于提供多视角搜索(Multi-faceted Search),如用户输入Apple, 系统返回如beverage(饮料),foods(食品),desserts(甜点),home computers(家用电脑),apple computer(苹果电脑)等各种纬度来展现与关键字相关的方方面面,也从一定程度上改善了用户搜索体验和对于关键字去歧义。前面已经提到,在Web2.0的时代出现了用户对网页进行标注的形式,其中del.icio.us就是这样一个工具;它允许用户自己收藏网页,并对网页内容进行简单的标注。
    利用这种标注,可以找到文档中没有匹配查询关键字,而在标签中出现的高质量文档信息,同时展示相关标签以及用户等信息。

    前面我们介绍了传统的Web 1.0和Web 2.0的特点以及在这些环境下如何做搜索。传统的Web以网页为主,Web2.0降低了使用的门槛,使得数据更加多样化,内容也更丰富。接下看我们看看未来的Web可能会使什么样子的;以及在那样的环境中,如何进行搜索?
    2001年Tim Berners-Lee在《科学美国人》杂志上首先提出了对下一代网络的畅想。他认为下一代的互联网应该是所谓的“语义网”。在语义万维网中,Web的主角从文档转换为对象,原先文档之间的超链接(hyperlink)变为了对象之间的显式的语义关联。不仅如此,各种描述领域知识的本体数据不断出现,他们为搜索带来了新的挑战和机遇。这里主要列出4点:(1) 可扩展性: 由于Semantic Web比传统的Web对于事物的刻画粒度更细,数据的规模更加大,无论是Data Web search (billion of triples)还是Hybrid Search(结合document和matadata作为语义标注的),都将遇到前所未有的效率性能考验;(2) 异构性: 在前面也提到,Web中的大量Deep Web信息未被挖掘,然而现实中有很多复杂查询需要整合多个数据源或对象描述或文档信息来回答它,如查找研究数据库的人对语义Web的书评等复杂查询;(3) 不确定性: 更加robust和flexible的ranking机制来处理来自方方面面的不确定性(e.g. 数据抽取带来的,数据源的可靠性,查询的不精确性); (4) 可用性: 有了更多的语义数据,如何展现这些数据,整合到现有结果展现框架中,以及提供更加友善的用户查询接口(如自然语言,关键字等)来帮助用户表达他复杂且不精确的查询需求。

    先写到这里,下面会分不同帖子来介绍Semantic search。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/13 1:00:00
     
     beyondlei 帅哥哟,离线,有人找我吗?天秤座1982-9-24
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:69
      积分:644
      门派:XML.ORG.CN
      注册:2007/8/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给beyondlei发送一个短消息 把beyondlei加入好友 查看beyondlei的个人资料 搜索beyondlei在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看beyondlei的博客2
    发贴心情 
    感谢whfcarter, 学到很多东西。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/13 5:42:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客3
    发贴心情 
    支持
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/13 12:25:00
     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客4
    发贴心情 
    好文!

    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/13 23:17:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客5
    发贴心情 
    只有学到了一定程度,才能站在一个制高点上俯视整个领域的全貌。
    厚积薄发啊,而且和我看语义搜索的角度不同。先哲曾经说过,如果两个人各有一个苹果,交换他们所得,不过仍是一个苹果;如果两个人各持一种思想,交换所得就是每个人都有两种思想了。感谢您对这方面问题的深入阐述,小可学习了。

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/14 16:27:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客6
    发贴心情 
    对于Web2.0,似乎就是以RSS为主要特征。对于传统搜索引擎而言,这种类型的页面被称为“动态页面”。说实话,我不太清楚这样命名的依据是什么(如果有同志知道烦劳您补充一下)。但是至少有一点是可以确定的:这种模式的页面在索引时与其它传统页面有很大差异,经常会导致索引失败,或出现乱码等问题。而RSS的0.9版全称就是“RDF站点摘要”,单从名称来看或许语义搜索引擎索引此类页面更适合。不知各位以为如何?

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/5 9:49:00
     
     whfcarter 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机学士学位(贵宾)
      文章:143
      积分:2145
      门派:XML.ORG.CN
      注册:2005/3/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给whfcarter发送一个短消息 把whfcarter加入好友 查看whfcarter的个人资料 搜索whfcarter在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看whfcarter的博客7
    发贴心情 
    Web 2.0有时候也称social web,也就是说用户在Web information lifecycle中起到很大的作用。他们不仅是信息的消费者,也是信息的创造者,产生的数据即为user-contributed data。从Web 2.0最成功的应用来看也无非facebook (social network or community), techcruch (blog), wikipedia (wiki), flickr (image publishing), youtube (video sharing), del.icio.us (social bookmarking)等。当然RSS也是Web 2.0的一个重要特点,它提供给用户更有针对性的订阅方式(不同于email),同时RSS对于内容的syndication和aggregation提出了很大的便利,因此mashup在一定程度上也得益于这个。用户的介入不仅使得数据的增长比以前任何时候都要快(long tail, 一个用户贡献是有限的,但是Web上所有的用户都贡献一下,那么就不得了了),这些数据的形态和格式也与传统的不同,更重要的是用户的access pattern或者user behavior从原来隐式的变成显式的,这为提供更加好的个性化服务提供了基础。楼上所谓的动态页面和Web 2.0没有直接的联系,那是说由于动态网页技术如ASP, JSP以及各种JS的成熟和大量使用,有很多根据用户查询或者表单自动生成的页面,这些页面与传统的静态页面不同,他们不能通过遍历web graph来获得。而RSS与RDF的关系,我认为也不是那么的紧密。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/5 13:21:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客8
    发贴心情 
    我曾在某一篇英文文献(实在抱歉,当时并没觉得有什么特别之处,也没记名称和作者,但是现在想找却找不到了)中看到这样的说法:
    Web1.0特点是网站,单方面信息发布,分类法是网络分类法;而Web2.0的特点是RSS,用户提供信息,分类采取分众分类法(Folksonomy)。现在想来或许这也是搜索引擎对Web2.0网站进行索引的一个基本理论依据。但是在传统搜索引擎上搜索Web2.0内容的时候多是主页和单一的分页面,有办法按照树形结构提供搜索结果就好了。不知道用语义来做能否做到。
    另外听您一说,我感觉似乎对于Web2.0而言,现在最具特色的特征好像应该是在线百科全书和社会网络了,RSS似乎和它们形成鼎立之势。前一阵有不少人在炒Web3.0的概念,不知道是不是和社会网络的迅速发展有关。

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/5 16:34:00
     
     whfcarter 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机学士学位(贵宾)
      文章:143
      积分:2145
      门派:XML.ORG.CN
      注册:2005/3/8

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给whfcarter发送一个短消息 把whfcarter加入好友 查看whfcarter的个人资料 搜索whfcarter在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看whfcarter的博客9
    发贴心情 
    Web 3.0这个词大家都有不同的看法,有人认为随着带宽的增加,各种非text的数据越来越多,所以web 3.0应该是multimedia web,也有人认为随着各种设备的使用(不仅仅是PC, laptop, mobile甚至可以是sensor等), 人们需要各种智能服务来方便日常生活,所以可以是service web,当时也有人顺着social web的发展,大家认为web 3.0应该是personalized web等。当然这里另外一个普遍的认识是semantic web。其实无论叫什么,反正是更加智能的Web。其次,楼上你提到的folksonomy是值得关注的东西,他是folk+taxonomy的一个复合新名词,是Web 2.0的一个核心思想,也是各种social tagging的体现,如何通过这些user-contributed data来构造大量的ontology和semantic data是semantic web近2年研究的热点。这方面你可以看一下Peter Mika的文章,结合这个和microsearch以及searchmonkey,可以有更加深刻的认识。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/5 19:29:00
     
     Humphrey 帅哥哟,离线,有人找我吗?狮子座1981-7-23
      
      
      威望:1
      等级:研二(搞定了DL,再搞定F-Logic!)
      文章:937
      积分:5743
      门派:W3CHINA.ORG
      注册:2008/3/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Humphrey发送一个短消息 把Humphrey加入好友 查看Humphrey的个人资料 搜索Humphrey在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看Humphrey的博客10
    发贴心情 
    都说语义搜索引擎的索引也是比传统搜索引擎多了语义的。这样就由原来单纯的索引形式变成了语义索引。但是语义索引又和传统的倒排档索引有多大区别呢?至少给我的感觉是语义搜索引擎在爬取网页内容的时候还可以使用语义分析技术,而索引时恐怕还是得按传统的办法来。语义搜索引擎对Web2.0站点和语义资源的语义索引和对传统搜索引擎对网页的索引似乎差别不大,难道语义搜索引擎真的能实现一种类似网状的语义索引(采用语义联结)而不降低检索效率吗?我很疑惑。

    ----------------------------------------------
    鸿丰

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/2/6 15:30:00
     
     GoogleAdSense狮子座1981-7-23
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/18 16:50:46

    本主题贴数13,分页: [1] [2]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    136.719ms