以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  关于[B]语义标注[/B]的一些个人思考,欢迎大家讨论  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=19629)


--  作者:npubird
--  发布时间:6/14/2005 10:00:00 PM

--  关于[B]语义标注[/B]的一些个人思考,欢迎大家讨论
      最近,由于写东西的需要,需要对语义标注做一些考虑,因此,便有如下初稿中的一点想法,望各位同学各抒己见,发表自己对语义标注的看法。

      在本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。对于领域中的实例,在建模时一般不需要考虑它们,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应用结合时考虑实例才有意义。将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注(Semantic Annotation)所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。
     从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。通常,这种语义信息的添加是基于本体进行的,称之为语义标注。语义标注将推动语义Web走向实际应用,智能Agent能够根据Web上的语义信息实现智能推理任务,并能提高信息检索的精确性。
     如果将本体看作简化了的知识库,那么从本体的角度来看,添加实例,即进行语义标注,可视为丰富本体的过程。如果站在语义Web的角度来看,语义标注便是语义信息的发布过程:用户依据一定的本体,为页面添加语义信息。然而,语义Web中的标注问题由于受到多方面因素的影响,变得很复杂。一部分人希望语义Web上的语义信息能像页面本身的创建一样,由用户来完成,因为任何机构都不可能完成如此庞大的语义标注任务。这样一来,任何用户都能够选择或创建自己喜好的本体,并利用它们来标注页面。这些本体的规模通常是小型的。目前的很多研究者都支持这种观点,它们认为语义Web将建立在无数的小本体之上,正如Rousset在ISWC2004大会上的特邀演讲中所说的:“Small can be beautiful in the Semantic Web”[Rou04]。但这种观点的缺点也很明显:大量的小本体往往是异构的,这将造成在使用语义信息的过程中需要频繁执行处理本体异构的操作,给应用系统带来沉重的负担。为了克服第一种观点的缺陷,一部分人希望某些大型的机构能提供一些权威而通用的大本体,让用户在标注的过程中使用。但这样做也同样会导致很多问题:首先,本体的提供者如果被少数机构垄断,那将大大限制了用户表达自己思想的自由,Web从此失去了它与生俱来的自由本质;其次,目前的研究已经表明,创建涵盖人类多个方面知识的大规模本体极其困难,而又要让这样的本体得到Web用户的公认,这个目标更难以达到;最后,也是最重要的问题是:什么机构或组织能提供这样的本体呢?W3C还是ISO?Google还是Yahoo?美国国家标准局还是中国国家标准局?这种本体的标准之争必然会涉及到不同国度、历史背景和文化,很难有一个最终的结果。在我们看来,上述两种观点都过于极端,切实可行的标注方案应该是二者的折中,既要保证标注的本体具有一定的通用性,又要保证它能满足用户的要求。涉及专业领域的本体可由领域中的权威机构统一制定,如医学中的UMLS本体,而涉及文化冲突的本体制定时可以考虑多个版本。因此,对语义Web来说,语义标注不仅仅是一种技术,更是一种文化。
      语义标注技术也碰到了经典的“鸡与蛋”的问题:一方面通常的网页创建者很不愿意为创作的网页内容提供语义标注,除非他亲自感受到那样做所带来的巨大好处;另一方面只有大规模的语义标注数据存在,并在Web上实现优于现有技术或现有技术不能解决的应用,才可能有更多人或团体愿意提供语义标注。最后,在语义标注过程中通常既要保证个人的观点,又要比较权威的专家的意见,而且还需要大量本体来满足不同用户的需求;某些用户仅希望通过标注来更快地找到标注对象所对应的网站,而那些本身知道链接的高层用户还要求进一步获得关于标注对象的更精确的描述。
      作为语义Web的基础,很多研究机构都对其进行了深入的研究,但并没有取得根本性的进展。至今,语义标注仍然是语义Web实现的瓶颈问题。


[此贴子已经被作者于2005-6-15 10:11:42编辑过]

--  作者:roboy
--  发布时间:6/15/2005 10:08:00 AM

--  
写的不错。我觉得语义标注是个很大的问题,其中还涉及到对本体的理解、
以及一些建立联系的技巧,靠用户自己完成恐怕还是有些困难。
--  作者:she
--  发布时间:6/15/2005 11:59:00 AM

--  
顶一个!
--  作者:xuhy
--  发布时间:6/15/2005 2:38:00 PM

--  
我们现在也碰到这个问题,语义标注,本体建立也应该出来一个标准性的东西,要不然理解不同,标注就更加困难了。
--  作者:hongfeng1126
--  发布时间:6/15/2005 3:22:00 PM

--  
我现在也面临这样一个问题,本体建立后,如何用它对文档进行标注?如何检索?等等
--  作者:iamwym
--  发布时间:6/16/2005 6:40:00 AM

--  
就如各种软件,各种数据库很多内容不被共享,很多本体也不是为了通用而建立的。大家有了一个具体的项目,如果使用本体会有比较好的效率,才会去建立这么一个领域专用本体。我发现国内的研究人员存在空空地去建立一个本体,然后为这个本体去寻找一个用途,基本上是本末倒置了。所以才会出现楼上朋友的问题。

本体的建立,本来大家就各建各的。就如中国人看中文网页,美国人看英文网页道理一样,没有必要做到统一的标准。也没有听说网页的设计,软件的设计要有严格统一的标准咯。只要有统一的语言和正确的过程,就可以了。

本体研究很注重规模效应,一个学校几个人小打小闹根本不会出好成果。一个实验室几十人几百万的年投入才可能。这种除了国家重点实验室,国内还没有这个条件。说到底,构建本体,本题标注等等技术和理论都不是瓶颈,瓶颈在钱。protege为什么能流行最广,德国的KAON却不行,还不是开发protege的几所实验室财力雄厚?


--  作者:jiexincao
--  发布时间:6/16/2005 3:02:00 PM

--  
本体建立应该说可以分成自顶向下和自底向上两种,两者各有优势。
但是似乎目前更多的做法是自顶向下的,就是先建顶层本体,在一步步扩展,直到领域应用所需要的本体。

同时我还认为本体与语言还不一样,语言可能有不同的语言的差别,但是本体应该是概念的表达,是独立于语言的更为本质的东西。所以在建立本体时对概念应该先给它一个URI,然后指出某种语言称这个概念为“……”。

比如说要表达 人  这个概念,我们可以先为它制定一个URI“http://www.pp.pp#person”,然后将其属性“EnglishName”设为“person”,属性“中文名”设为“人”。
这样以后才能真正的建立一个广泛的可共享的概念体系:这时候我们如果需要检索“人”这个概念的时候,可以检索出使用不同语言标注出来的信息,也可以使用任何一种语言进行检索。


--  作者:Spark
--  发布时间:6/22/2005 9:20:00 PM

--  
楼主的想法很正确,但是除此之外有没有一些更具建设性的观点可以share一下呢?语义标注的确是semanticweb的瓶颈(semanticweb的瓶颈还不止这一个),里面也是矛盾重重,有人就提议用机器学习的方法自动给web做标注,不过这点我倒是不太赞同,因为我既然已经可以通用的学习方法学习出某些web实例的语义,那我还有什么必要再将其标记出来呢?所以似乎只有人本身才有去做语义标记的必要(标记一些机器所不能理解的语义)。不过这种自动方法也不是完全不能用,如果语义标注加入了机器和人共同的作用力,既可以利用机器的快速性、又可以引入人的特有知识,这也许才是语义标注的一个好办法。 一点谬论........
--  作者:Spark
--  发布时间:6/22/2005 9:24:00 PM

--  
说的很好啊
的确是这样,而且owl中也有类似的机制
更好的方法可以参见SKOS(Simple Knowledge Organisation System )
http://www.w3.org/2004/02/skos/
我觉得skos对于某个概念在不同语言中的表达的处理方式是最自然的

以下是引用jiexincao在2005-6-16 15:02:21的发言:
本体建立应该说可以分成自顶向下和自底向上两种,两者各有优势。
但是似乎目前更多的做法是自顶向下的,就是先建顶层本体,在一步步扩展,直到领域应用所需要的本体。

同时我还认为本体与语言还不一样,语言可能有不同的语言的差别,但是本体应该是概念的表达,是独立于语言的更为本质的东西。所以在建立本体时对概念应该先给它一个URI,然后指出某种语言称这个概念为“……”。

比如说要表达 人  这个概念,我们可以先为它制定一个URI“http://www.pp.pp#person”,然后将其属性“EnglishName”设为“person”,属性“中文名”设为“人”。
这样以后才能真正的建立一个广泛的可共享的概念体系:这时候我们如果需要检索“人”这个概念的时候,可以检索出使用不同语言标注出来的信息,也可以使用任何一种语言进行检索。



--  作者:shen_edward
--  发布时间:6/23/2005 11:04:00 AM

--  
通过自学习进行本体自动标注是可能的,不过前提是有一个比较完整的领域本体的建立,类似于专家系统的原理,在有大量现成本体的情况下,通过实例类比学习,对新的实例进行自动标注。而且这种学习本身可以是基于实例和知识的,这个过程也许会出现一些meta-ontology。个人观点!
--  作者:yaresky
--  发布时间:6/23/2005 12:15:00 PM

--  
我同意楼上的意见,本来是做应急方面,目前正试图建化工火灾的本体这一小领域的本体,也联系上某省消防总队和专业院校的人在做,感觉已经做出点味了。本体,要是没有具体领域的人做,是没有用的。我们的研究进展在,欢迎大家一起探讨
http://forumabc.net/cgi-bin/forums.cgi?forum=12
--  作者:chinesegates
--  发布时间:12/24/2005 3:36:00 PM

--  
写的不错
--  作者:iamwym
--  发布时间:12/24/2005 5:50:00 PM

--  
一直没时间看这篇东西,今天看了一下,提点意见。

1.首先本体不可能是几个组织提供的,本体是软件,我们的目标,就是使得我们的本体能够被共享,就像我们机器上的软件。个人用户制作的本体,也能够作为信息被大家享用。当然这种信息是否可靠,能否被使用,相信电子签名之类的技术能很好解决这个问题。就如现在的软件发布,个人,或者大组织都可以,只要软件耗用自然有人用,我们现在的研究就是使得大家开发的本体能够被很好地利用,简洁地利用。

2.关于本体标注。我们需要标注的是我们手头的信息,而不是我们要为别人提供标注的方便。而且标注似乎某种程度上来说,已经成为应用的一部分,似乎现在本体标注大家都认为技术已经可以在被应用的情况下了。目前的sw技术并不是要推广到整个web,而是实现某些应用,一些具体的case,这样子慢慢地推广,一步走到头,是不大可能的。


--  作者:ztszhang
--  发布时间:12/25/2005 7:32:00 PM

--  
看了大家的发言,收获颇多!
个人认为:
1 本体的建立和应用应该是从单独领域开始的,然后发展到多个本体的间的应用,在这期间要完成本体的合成与影射,最后才能发展成整个Web公用的本体。
2 而对于本体的标注,还是应该由机器自动来完成,试想谁会为了发布一下信息,还要一点点对自己的页面进行标注呢。
3 赞成jiexincao说的本题的建立方法: 语言不能成为区分一个本体的标志,只是用不同的属性来区分对一个概念的不同的形式化表示(不同的语言)。

--  作者:ymm
--  发布时间:12/27/2005 10:33:00 AM

--  
高深!!!
--  作者:shrimpLucky
--  发布时间:1/5/2006 10:38:00 PM

--  
大家讨论的不错,学习了,呵呵
语义网的需要的知识太多了,各方面的融合需要慢慢来,不可能一下子全考虑完全,要从小岗村开始。
--  作者:zhenchao0120
--  发布时间:5/16/2006 3:48:00 PM

--  
那具体的到底是怎么进行语义标注啊????
--  作者:jiachong
--  发布时间:5/16/2006 4:26:00 PM

--  
一点个人看法:
1)真正有意义的本体是领域本体,但领域可大可小,所以首先应该将领域进行层次化组织,每个层次上的每一个领域对应一个领域本体,这样下层本体是对上层本体的扩展(这种扩展不一定只能通过概念继承完成)

2)从理想的角度看,领域本体还是应该有相应的标准,因为这有利于资源在一定范围内的共享。这个标准不应该像楼主说的那样由少数机构垄断,而是应该根据所对应领域内的权威机构层次性的发布。例如教育部负责制定国家教育本体,但不涉及具体学科知识,那么中学语文领域本体可以由中学教学委员会中的语文专委会之类的机构出面制定,这样全国的中学语文教师都按照同样的知识基础描述自己发布到网上的教学资源,共享就可以得到大大促进。当然这种发布少不了相关工具的支持,因为让每个老师熟悉本体中的所有术语是很困难的。

3)从现实情况看,虽然还没看到有哪个领域在制定本体标准,但类似的工作还是有的。例如电子政务领域已有了自己的行业标准,参与制定的是一些电子政务软件开发企业以及一些主管部门,这种标准虽然是从软件实现角度制定的,但其中应该还是蕴含了许多领域知识,只是没有到提炼成规范描述的本体的地步。标准的制定就是给后来者设置门槛,例如规定电子政务中合法的公文电子签名一定要包含哪些要素,符合什么样的条件,这种知识谁能说不是领域本体所要描述的东西呢


--  作者:MerryZhang
--  发布时间:5/17/2006 10:12:00 AM

--  标准的重要性
我也认为标准十分地重要的,标准凝结了很多专家在某个领域里面的知识。通过整理,应该能够比较简单地构建本体。

自动语义标注的确是非常难得一个课题,互联网是一个巨大的资源,如果要将每一个网页都采用人工的方式进行标注,将要花费大量人力和时间。采用Text Mining技术,对语义进行自动标识似乎是一个比较好的研究课题。


--  作者:holimouse
--  发布时间:5/17/2006 11:36:00 PM

--  
很有用!
--  作者:superc_7
--  发布时间:5/18/2006 4:14:00 PM

--  
赞同lz的观点,很多想法我们不谋而合

对于本体的使用,感觉真正有意义的还是面向领域的本体
本体的重用非常重要,当然前提是某个领域有权威性的本体
权威性的本体怎么产生?可以领域内权威性组织制定
如果这种组织不存在的话可以通过自由竞争产生

语义标注的确是个很困难的问题,例如现有web向语义web延伸后,现有网络资源如何语义化?
语义标注到底应该由谁来完成?作者?读者?还是第三机构
究竟该以什么方式完成?机器自动?人工?还是相结合?
语义标注的词汇标签来源于哪里?受控的本体?非受控词汇?还是其他?
感觉太多的问题值得探讨


--  作者:superc_7
--  发布时间:5/18/2006 4:25:00 PM

--  
以下是引用iamwym在2005-6-16 6:40:00的发言:
就如各种软件,各种数据库很多内容不被共享,很多本体也不是为了通用而建立的。大家有了一个具体的项目,如果使用本体会有比较好的效率,才会去建立这么一个领域专用本体。我发现国内的研究人员存在空空地去建立一个本体,然后为这个本体去寻找一个用途,基本上是本末倒置了。所以才会出现楼上朋友的问题。

本体的建立,本来大家就各建各的。就如中国人看中文网页,美国人看英文网页道理一样,没有必要做到统一的标准。也没有听说网页的设计,软件的设计要有严格统一的标准咯。只要有统一的语言和正确的过程,就可以了。

本体研究很注重规模效应,一个学校几个人小打小闹根本不会出好成果。一个实验室几十人几百万的年投入才可能。这种除了国家重点实验室,国内还没有这个条件。说到底,构建本体,本题标注等等技术和理论都不是瓶颈,瓶颈在钱。protege为什么能流行最广,德国的KAON却不行,还不是开发protege的几所实验室财力雄厚?


嗯,有意义的本体一定要面向某个领域某种应用
而不是建立出本体之后再看它能干什么,这一点上非常赞同bm

本体的建立上我觉得应该更多的考虑重用现有资源,我在建自己的本体的时候首先应该考虑这个领域内是否已经有类似或者相关的本体,我的本体可以直接使用哪些已有本体,但这个前提是所有本体真正的“共享”,包括源码全部开放,这个可以实现吗?

最后,我还是觉得相关技术尚不成熟,是制约现在本体应用的瓶颈
当然bm说的也对,投钱搞研发的确是现在唯一的选择
问题是投了钱进去能否解决这个瓶颈呢?
要知道这个领域的发展受多方面制约,比如人工智能什么的


--  作者:superc_7
--  发布时间:5/18/2006 4:40:00 PM

--  
以下是引用Spark在2005-6-22 21:20:00的发言:
楼主的想法很正确,但是除此之外有没有一些更具建设性的观点可以share一下呢?语义标注的确是semanticweb的瓶颈(semanticweb的瓶颈还不止这一个),里面也是矛盾重重,有人就提议用机器学习的方法自动给web做标注,不过这点我倒是不太赞同,因为我既然已经可以通用的学习方法学习出某些web实例的语义,那我还有什么必要再将其标记出来呢?所以似乎只有人本身才有去做语义标记的必要(标记一些机器所不能理解的语义)。不过这种自动方法也不是完全不能用,如果语义标注加入了机器和人共同的作用力,既可以利用机器的快速性、又可以引入人的特有知识,这也许才是语义标注的一个好办法。 一点谬论........


嗯,这方面有什么最新的论文呢?
语义标注的完全自动化或完全手工化的确都不是很可行
人机结合应该是主要方向。
语义标注的意义并不只限于机器理解资源的内容
标注产生的语义元数据可以作为资源的替身,我们对它进行处理就可以了
而不必再对资源进行处理,这显然更高效一些
--  作者:MerryZhang
--  发布时间:5/18/2006 4:42:00 PM

--  
以下是引用superc_7在2006-5-18 16:14:00的发言

语义标注的确是个很困难的问题,例如现有web向语义web延伸后,现有网络资源如何语义化?
语义标注到底应该由谁来完成?作者?读者?还是第三机构
究竟该以什么方式完成?机器自动?人工?还是相结合?
语义标注的词汇标签来源于哪里?受控的本体?非受控词汇?还是其他?
感觉太多的问题值得探讨


提出的问题都相当地好,比较精辟。
--语义标注的确是个很困难的问题,例如现有web向语义web延伸后,现有网络资源如何语义化?
这个问题正是语义标注想要解决的问题,通过对现有的网络资源的描述,并通过描述网络资源(网页)之间的关系,从而能够找到更加丰富的信息。如你输入一个音乐家的名字,那么就会将这个音乐家的朋友,作品,家乡,爱情等信息统统地展示出来,这也许就是语义网的魅力吧!



--  作者:MerryZhang
--  发布时间:5/18/2006 4:48:00 PM

--  
以下是引用superc_7在2006-5-18 16:25:00的发言:

本体的建立上我觉得应该更多的考虑重用现有资源,我在建自己的本体的时候首先应该考虑这个领域内是否已经有类似或者相关的本体,我的本体可以直接使用哪些已有本体,但这个前提是所有本体真正的“共享”,包括源码全部开放,这个可以实现吗?


个人觉得虽然网上有了已经建立的本体,但感觉也应该是在权威机构构建的标准模型的基础上构建起来的本体会比较能够为大家所接受。这样才能够为大家(指某个领域)所接受,毕竟那是很多的专家的知识的结晶。


--  作者:superc_7
--  发布时间:5/18/2006 4:49:00 PM

--  
以下是引用shen_edward在2005-6-23 11:04:00的发言:
通过自学习进行本体自动标注是可能的,不过前提是有一个比较完整的领域本体的建立,类似于专家系统的原理,在有大量现成本体的情况下,通过实例类比学习,对新的实例进行自动标注。而且这种学习本身可以是基于实例和知识的,这个过程也许会出现一些meta-ontology。个人观点!

这类似于自动分类里的KNN算法
这倒给我们一个新的想法
现有的一些自动分类、聚类算法,如KNN,Bayes,SVM等等的原理
是否可以借鉴到这里来呢?
更广一步,现有的一些机器自动方面的成果可不可以借鉴过来?


--  作者:superc_7
--  发布时间:5/18/2006 5:34:00 PM

--  
以下是引用ztszhang在2005-12-25 19:32:00的发言:
看了大家的发言,收获颇多!
个人认为:
1 本体的建立和应用应该是从单独领域开始的,然后发展到多个本体的间的应用,在这期间要完成本体的合成与影射,最后才能发展成整个Web公用的本体。
2 而对于本体的标注,还是应该由机器自动来完成,试想谁会为了发布一下信息,还要一点点对自己的页面进行标注呢。
3 赞成jiexincao说的本题的建立方法: 语言不能成为区分一个本体的标志,只是用不同的属性来区分对一个概念的不同的形式化表示(不同的语言)。


对于第2点,如果有精确的激励机制,使得创建者有动力去正确的标引自己的资源是再好不过了,但很多情况下这种激励机制很难或根本不存在

对于第3点,SKOS中很重要的一个想法就是,概念和它的词汇标签的分离,我们使用一个概念去标引资源,而不是某个特定的词汇


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
171.875ms