以文本方式查看主题 - W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL (http://bbs.xml.org.cn/index.asp) -- 『 Semantic Web(语义Web)/描述逻辑/本体 』 (http://bbs.xml.org.cn/list.asp?boardid=2) ---- 关于[B]语义标注[/B]的一些个人思考,欢迎大家讨论 (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=19629) |
-- 作者:npubird -- 发布时间:6/14/2005 10:00:00 PM -- 关于[B]语义标注[/B]的一些个人思考,欢迎大家讨论 最近,由于写东西的需要,需要对语义标注做一些考虑,因此,便有如下初稿中的一点想法,望各位同学各抒己见,发表自己对语义标注的看法。 在本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。对于领域中的实例,在建模时一般不需要考虑它们,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应用结合时考虑实例才有意义。将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注(Semantic Annotation)所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。
[此贴子已经被作者于2005-6-15 10:11:42编辑过]
|
-- 作者:roboy -- 发布时间:6/15/2005 10:08:00 AM -- 写的不错。我觉得语义标注是个很大的问题,其中还涉及到对本体的理解、 以及一些建立联系的技巧,靠用户自己完成恐怕还是有些困难。 |
-- 作者:she -- 发布时间:6/15/2005 11:59:00 AM -- 顶一个! |
-- 作者:xuhy -- 发布时间:6/15/2005 2:38:00 PM -- 我们现在也碰到这个问题,语义标注,本体建立也应该出来一个标准性的东西,要不然理解不同,标注就更加困难了。 |
-- 作者:hongfeng1126 -- 发布时间:6/15/2005 3:22:00 PM -- 我现在也面临这样一个问题,本体建立后,如何用它对文档进行标注?如何检索?等等 |
-- 作者:iamwym -- 发布时间:6/16/2005 6:40:00 AM -- 就如各种软件,各种数据库很多内容不被共享,很多本体也不是为了通用而建立的。大家有了一个具体的项目,如果使用本体会有比较好的效率,才会去建立这么一个领域专用本体。我发现国内的研究人员存在空空地去建立一个本体,然后为这个本体去寻找一个用途,基本上是本末倒置了。所以才会出现楼上朋友的问题。 本体的建立,本来大家就各建各的。就如中国人看中文网页,美国人看英文网页道理一样,没有必要做到统一的标准。也没有听说网页的设计,软件的设计要有严格统一的标准咯。只要有统一的语言和正确的过程,就可以了。 本体研究很注重规模效应,一个学校几个人小打小闹根本不会出好成果。一个实验室几十人几百万的年投入才可能。这种除了国家重点实验室,国内还没有这个条件。说到底,构建本体,本题标注等等技术和理论都不是瓶颈,瓶颈在钱。protege为什么能流行最广,德国的KAON却不行,还不是开发protege的几所实验室财力雄厚? |
-- 作者:jiexincao -- 发布时间:6/16/2005 3:02:00 PM -- 本体建立应该说可以分成自顶向下和自底向上两种,两者各有优势。 但是似乎目前更多的做法是自顶向下的,就是先建顶层本体,在一步步扩展,直到领域应用所需要的本体。 同时我还认为本体与语言还不一样,语言可能有不同的语言的差别,但是本体应该是概念的表达,是独立于语言的更为本质的东西。所以在建立本体时对概念应该先给它一个URI,然后指出某种语言称这个概念为“……”。 比如说要表达 人 这个概念,我们可以先为它制定一个URI“http://www.pp.pp#person”,然后将其属性“EnglishName”设为“person”,属性“中文名”设为“人”。 |
-- 作者:Spark -- 发布时间:6/22/2005 9:20:00 PM -- 楼主的想法很正确,但是除此之外有没有一些更具建设性的观点可以share一下呢?语义标注的确是semanticweb的瓶颈(semanticweb的瓶颈还不止这一个),里面也是矛盾重重,有人就提议用机器学习的方法自动给web做标注,不过这点我倒是不太赞同,因为我既然已经可以通用的学习方法学习出某些web实例的语义,那我还有什么必要再将其标记出来呢?所以似乎只有人本身才有去做语义标记的必要(标记一些机器所不能理解的语义)。不过这种自动方法也不是完全不能用,如果语义标注加入了机器和人共同的作用力,既可以利用机器的快速性、又可以引入人的特有知识,这也许才是语义标注的一个好办法。 一点谬论........ |
-- 作者:Spark -- 发布时间:6/22/2005 9:24:00 PM -- 说的很好啊 的确是这样,而且owl中也有类似的机制 更好的方法可以参见SKOS(Simple Knowledge Organisation System ) http://www.w3.org/2004/02/skos/ 我觉得skos对于某个概念在不同语言中的表达的处理方式是最自然的
|
-- 作者:shen_edward -- 发布时间:6/23/2005 11:04:00 AM -- 通过自学习进行本体自动标注是可能的,不过前提是有一个比较完整的领域本体的建立,类似于专家系统的原理,在有大量现成本体的情况下,通过实例类比学习,对新的实例进行自动标注。而且这种学习本身可以是基于实例和知识的,这个过程也许会出现一些meta-ontology。个人观点! |
-- 作者:yaresky -- 发布时间:6/23/2005 12:15:00 PM -- 我同意楼上的意见,本来是做应急方面,目前正试图建化工火灾的本体这一小领域的本体,也联系上某省消防总队和专业院校的人在做,感觉已经做出点味了。本体,要是没有具体领域的人做,是没有用的。我们的研究进展在,欢迎大家一起探讨 http://forumabc.net/cgi-bin/forums.cgi?forum=12 |
-- 作者:chinesegates -- 发布时间:12/24/2005 3:36:00 PM -- 写的不错 |
-- 作者:iamwym -- 发布时间:12/24/2005 5:50:00 PM -- 一直没时间看这篇东西,今天看了一下,提点意见。 1.首先本体不可能是几个组织提供的,本体是软件,我们的目标,就是使得我们的本体能够被共享,就像我们机器上的软件。个人用户制作的本体,也能够作为信息被大家享用。当然这种信息是否可靠,能否被使用,相信电子签名之类的技术能很好解决这个问题。就如现在的软件发布,个人,或者大组织都可以,只要软件耗用自然有人用,我们现在的研究就是使得大家开发的本体能够被很好地利用,简洁地利用。 2.关于本体标注。我们需要标注的是我们手头的信息,而不是我们要为别人提供标注的方便。而且标注似乎某种程度上来说,已经成为应用的一部分,似乎现在本体标注大家都认为技术已经可以在被应用的情况下了。目前的sw技术并不是要推广到整个web,而是实现某些应用,一些具体的case,这样子慢慢地推广,一步走到头,是不大可能的。 |
-- 作者:ztszhang -- 发布时间:12/25/2005 7:32:00 PM -- 看了大家的发言,收获颇多! 个人认为: 1 本体的建立和应用应该是从单独领域开始的,然后发展到多个本体的间的应用,在这期间要完成本体的合成与影射,最后才能发展成整个Web公用的本体。 2 而对于本体的标注,还是应该由机器自动来完成,试想谁会为了发布一下信息,还要一点点对自己的页面进行标注呢。 3 赞成jiexincao说的本题的建立方法: 语言不能成为区分一个本体的标志,只是用不同的属性来区分对一个概念的不同的形式化表示(不同的语言)。 |
-- 作者:ymm -- 发布时间:12/27/2005 10:33:00 AM -- 高深!!! |
-- 作者:shrimpLucky -- 发布时间:1/5/2006 10:38:00 PM -- 大家讨论的不错,学习了,呵呵 语义网的需要的知识太多了,各方面的融合需要慢慢来,不可能一下子全考虑完全,要从小岗村开始。 |
-- 作者:zhenchao0120 -- 发布时间:5/16/2006 3:48:00 PM -- 那具体的到底是怎么进行语义标注啊???? |
-- 作者:jiachong -- 发布时间:5/16/2006 4:26:00 PM -- 一点个人看法: 1)真正有意义的本体是领域本体,但领域可大可小,所以首先应该将领域进行层次化组织,每个层次上的每一个领域对应一个领域本体,这样下层本体是对上层本体的扩展(这种扩展不一定只能通过概念继承完成) 2)从理想的角度看,领域本体还是应该有相应的标准,因为这有利于资源在一定范围内的共享。这个标准不应该像楼主说的那样由少数机构垄断,而是应该根据所对应领域内的权威机构层次性的发布。例如教育部负责制定国家教育本体,但不涉及具体学科知识,那么中学语文领域本体可以由中学教学委员会中的语文专委会之类的机构出面制定,这样全国的中学语文教师都按照同样的知识基础描述自己发布到网上的教学资源,共享就可以得到大大促进。当然这种发布少不了相关工具的支持,因为让每个老师熟悉本体中的所有术语是很困难的。 3)从现实情况看,虽然还没看到有哪个领域在制定本体标准,但类似的工作还是有的。例如电子政务领域已有了自己的行业标准,参与制定的是一些电子政务软件开发企业以及一些主管部门,这种标准虽然是从软件实现角度制定的,但其中应该还是蕴含了许多领域知识,只是没有到提炼成规范描述的本体的地步。标准的制定就是给后来者设置门槛,例如规定电子政务中合法的公文电子签名一定要包含哪些要素,符合什么样的条件,这种知识谁能说不是领域本体所要描述的东西呢 |
-- 作者:MerryZhang -- 发布时间:5/17/2006 10:12:00 AM -- 标准的重要性 我也认为标准十分地重要的,标准凝结了很多专家在某个领域里面的知识。通过整理,应该能够比较简单地构建本体。 自动语义标注的确是非常难得一个课题,互联网是一个巨大的资源,如果要将每一个网页都采用人工的方式进行标注,将要花费大量人力和时间。采用Text Mining技术,对语义进行自动标识似乎是一个比较好的研究课题。 |
-- 作者:holimouse -- 发布时间:5/17/2006 11:36:00 PM -- 很有用! |
-- 作者:superc_7 -- 发布时间:5/18/2006 4:14:00 PM -- 赞同lz的观点,很多想法我们不谋而合 对于本体的使用,感觉真正有意义的还是面向领域的本体 语义标注的确是个很困难的问题,例如现有web向语义web延伸后,现有网络资源如何语义化? |
-- 作者:superc_7 -- 发布时间:5/18/2006 4:25:00 PM --
嗯,有意义的本体一定要面向某个领域某种应用 本体的建立上我觉得应该更多的考虑重用现有资源,我在建自己的本体的时候首先应该考虑这个领域内是否已经有类似或者相关的本体,我的本体可以直接使用哪些已有本体,但这个前提是所有本体真正的“共享”,包括源码全部开放,这个可以实现吗? 最后,我还是觉得相关技术尚不成熟,是制约现在本体应用的瓶颈 |
-- 作者:superc_7 -- 发布时间:5/18/2006 4:40:00 PM --
嗯,这方面有什么最新的论文呢? 语义标注的完全自动化或完全手工化的确都不是很可行 人机结合应该是主要方向。 语义标注的意义并不只限于机器理解资源的内容 标注产生的语义元数据可以作为资源的替身,我们对它进行处理就可以了 而不必再对资源进行处理,这显然更高效一些 |
-- 作者:MerryZhang -- 发布时间:5/18/2006 4:42:00 PM --
提出的问题都相当地好,比较精辟。 |
-- 作者:MerryZhang -- 发布时间:5/18/2006 4:48:00 PM --
个人觉得虽然网上有了已经建立的本体,但感觉也应该是在权威机构构建的标准模型的基础上构建起来的本体会比较能够为大家所接受。这样才能够为大家(指某个领域)所接受,毕竟那是很多的专家的知识的结晶。 |
-- 作者:superc_7 -- 发布时间:5/18/2006 4:49:00 PM --
这类似于自动分类里的KNN算法 |
-- 作者:superc_7 -- 发布时间:5/18/2006 5:34:00 PM --
对于第2点,如果有精确的激励机制,使得创建者有动力去正确的标引自己的资源是再好不过了,但很多情况下这种激励机制很难或根本不存在 对于第3点,SKOS中很重要的一个想法就是,概念和它的词汇标签的分离,我们使用一个概念去标引资源,而不是某个特定的词汇 |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
171.875ms |