以文本方式查看主题 - W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL (http://bbs.xml.org.cn/index.asp) -- 『 Semantic Web(语义Web)/描述逻辑/本体 』 (http://bbs.xml.org.cn/list.asp?boardid=2) ---- [BLUE]专题贴讨论-ontology mapping[/BLUE] (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=35646) |
-- 作者:iamwym -- 发布时间:7/15/2006 3:59:00 PM -- [BLUE]专题贴讨论-ontology mapping[/BLUE] 由于暑假的开始,版上相对会安静些,于是想集中打造一些精华讨论贴,每个帖子都会有一个主题。主要的讨论范围在: 1. 存在问题 2. 发展趋势 3. 相关工具 当然不限制于这些。 本贴是关于ontology mapping,请大家畅所欲言。 [此贴子已经被admin于2006-7-16 9:53:29编辑过]
|
-- 作者:iamwym -- 发布时间:7/15/2006 4:02:00 PM -- 先开个头吧,ontology mapping现在最大的问题是不能自动化,其实完全自动化是不大可能的,问题在于人类怎么参与到其中效率和准确性最高。 |
-- 作者:tlqtib -- 发布时间:7/15/2006 8:42:00 PM -- ontology mapping是不是指的是异质本体的集成啊! |
-- 作者:Ambrosia -- 发布时间:7/15/2006 9:11:00 PM -- 也不完全是。其实它有很多“边缘”区域的。工具应该有更强的自动推理能力,让用户能用最少的领域知识就能参与其中。这个功能现在已经把我搞疯了,呵呵 |
-- 作者:hothhu -- 发布时间:7/16/2006 12:06:00 AM -- 首先对本体的研究还不是相当透彻,现在相对成熟的可用本体还是比较少的。所以做的ontology mapping大多数是有很大局限性,语义映射是人才能够思考的问题,我不认为机器能够完全代替人实现这点。 |
-- 作者:iamwym -- 发布时间:7/16/2006 1:35:00 AM -- 我觉得关于ontology, ontology mapping这些东西都不应该让普通用户去接触它,就如普通用户看不到xml的道理是一样的。本体的获取还是应该限制在domain expert和机器通过schema或者其它的数据结构获取。 |
-- 作者:Ambrosia -- 发布时间:7/16/2006 9:01:00 AM -- 我不同意。ir一开始也是只给专家用的,所以只有几个简单的模型。但是google现在不是傻瓜型的吗?用swoogle搜到10000个ontology没问题,相对成熟的可用本体是很多的。语义映射本身就是ontology mapping的热点。机器能够完全代替人是语义网和人工智能的终极目标。我总觉得语义网是人工智能与网络的结合。现在很多语义网上的技术也说明了这一点。 关键是如何定义普通用户。实际上普通用户就是程序员,他不一定要了解领域知识。如果限制在domain expert和机器通过schema或者其它的数据结构获取,ontology本身没有什么价值。domain expert对领域熟得很。我们这些领域外行人就是普通用户。 |
-- 作者:hothhu -- 发布时间:7/16/2006 9:27:00 AM -- 你说的“google傻瓜型”只是指给用户的感觉,其实google内部实现还不能完全全自动,不然要那么多员工干吗?再说google还没实现到语义的层次。 全自动的ontology mapping相当于理想的共产主义,我认为不可能完全实现,必定需要专家(可能是真正的专家,也可能是一般用户自我的知识)的不同程度的参与。 |
-- 作者:hothhu -- 发布时间:7/16/2006 9:31:00 AM -- ontology mapping是建立在schema mapping,一般的非语义映射完全可以用schema mapping的方法来做,对于涉及语义的映射,才用本体的推理来做。 但是,现在schema mapping做的很成熟、完全自动化了? |
-- 作者:jl1022 -- 发布时间:7/16/2006 9:34:00 AM -- 我的几个问题: owl语言中有表示part of关系的词吗?我怎么感觉owl中只表示kind of 关系呢? 一个菜鸟问题:ontology mapping 需要做哪些工作? 我感觉ontology 语言中都有相应的map的语句,还用得着做其他工作了吗?比如owl中的equivalentclass ,equivalentProperty等 还有一个问题:我们总是说ontology 的五个基本建模元语,类、关系、函数、公理、实例。其他的几个元语倒还能够在owl类型的几个典型例子中找到,但我不知道函数这一个建模元语在owl语言中对应什么语句呢?那位能指点一下,在哪个例子中的哪一部分就是对函数的体现? [此贴子已经被iamwym于2006-7-16 18:28:41编辑过]
|
-- 作者:hothhu -- 发布时间:7/16/2006 1:06:00 PM -- itersection表示 part of的关系吧。 |
-- 作者:jl1022 -- 发布时间:7/16/2006 3:00:00 PM -- 我看不是吧! an owl:intersectionof statement describes a class for which the class extension contains precisely those individuals that are members of the class extension of all class descriptions in the list. 代表几个类的交集的意思。 不是partof 的意思 |
-- 作者:iamwym -- 发布时间:7/16/2006 6:11:00 PM --
你的第一个观点正好证明了我的观点——google的成功就是在于傻瓜,它把复杂的技术藏在了用户之后,操作就是这么简单,但是的后台是相当复杂的。 “语义映射本身就是ontology mapping的热点”,这句话我不明白,语义映射是什么,它和本体映射什么关系?有这样的说法么?citation在哪里? 机器完全替代人绝对不是语义网的目标,这个目标在AI界也是初创时期的目标,现在随便谁都知道,机器替代人的一天,就是人类灭亡的一天。 语义网是人工智能和网络的结合这个观点显然不成立,应该是和web技术的结合,这是个一般常识。 对不起我完全不同意你接下来的观点, 普通用户在哪里都是像我老爸老妈这样用电脑的人,他们上班看网页,收邮件,查google,写文档,和我用IM,就是这样。程序员显然是语义网的开发者之一,他们可以不怎么懂sw, 会用api就可以,而我们科研人员(大学和大公司)目的就是怎么样提供一个让程序员简单开发sw应用的api和怎样建立一个面向普通用户程序的规范,框架,原形,和相应的指导。 我个人认为这位朋友非常有自己的见解,但是恕我直言,在我看来,你的研究在方向上存在问题。 |
-- 作者:iamwym -- 发布时间:7/16/2006 6:14:00 PM --
没有,基于learning和其它各种AI技术的自动mapping,能够实现一定程度上的mapping,可是仍然需要人工介入。现有的可用系统,一般都是完全手工建立的ontology mapping。 |
-- 作者:iamwym -- 发布时间:7/16/2006 7:47:00 PM --
没有,但你可以自己建立。 你说的这些就是mapping之中的。 函数不包括在owl中。 |
-- 作者:Ambrosia -- 发布时间:7/16/2006 8:37:00 PM -- 好的工具底层当然是透明的,你看得见window的底层马,microsoft那么多人干啥的。第2点我是同意的。你说google全自动,你总得知道要查的关键字把,呵呵
|
-- 作者:Ambrosia -- 发布时间:7/16/2006 8:40:00 PM -- schema mapping本身就是带语义的,你去查一下cupid, SM, LSD。完全自动化是不可能,也不应该的
|
-- 作者:Ambrosia -- 发布时间:7/16/2006 8:49:00 PM -- iamwym说得对!他一说function我也晕了,以为又是自己的规范没看懂呢,呵呵
|
-- 作者:Ambrosia -- 发布时间:7/16/2006 9:04:00 PM --
——————————————————谢谢!我喜欢听别人的意见,也喜欢反驳,当然是真诚的。而且更要命的是我喜欢给别人提意见,呵呵。这可能是我容易倒霉的原因之一,呵呵 |
-- 作者:iamwym -- 发布时间:7/16/2006 10:12:00 PM -- 是hu wei的paper啊?哪篇呢? |
-- 作者:Ambrosia -- 发布时间:7/17/2006 8:01:00 AM -- www2006啊 |
-- 作者:leopard -- 发布时间:7/17/2006 8:22:00 AM -- 个人觉得,本体匹配的最主要的目的是实现数据(或信息)的互操作性(interoperability),但是这个互操作性的高低却没有定论,当然完全的自动是最好的,呵呵。人工的接入我觉得是不可避免的,这个问题在特定领域本体的匹配中尤为重要,一些通用的技术,例如wordnet等,都很难处理这种特定领域本体。目前本体匹配的主要工作还停留在语法层面上(包括自然语言处理,本体结构特征处理等),但是真正基于语义的匹配还比较难,所以目前一些工作试图绕开这个问题,采用外部知识(例如bayesian网,community(EWSC2006的一篇文章))来引导匹配,但是个人觉得这个从本质上只能解决一部分的问题,所以本体匹配这个领域还是有很多工作可以做的。 |
-- 作者:Ambrosia -- 发布时间:7/17/2006 6:38:00 PM -- wordnet在huwei的文章中被bs了呢 |
-- 作者:iamwym -- 发布时间:7/17/2006 7:51:00 PM -- wordnet这个东西太汗了,革命创新是没有的,但是这种标准化的工作总要有人去做,而且做好也不简单。我对mapping没有怎么专门研究过,但是现在的趋势就是把mapping做到编辑器里面,同时编辑多个本体,在他们之间创立mapping,支持manual, semi/automatic的方式去管理mapping。纯粹用机器也是不现实的。 |
-- 作者:leopard -- 发布时间:7/18/2006 9:36:00 AM -- 其实目前的本体发展有两个趋势,一种是小而精,一种是大而全,对于小而精的本体,就像iamwym所说,可以做到编辑器等中,有时甚至人工就可以进行匹配,而大而全的本体,一般是对一个领域的详细的描述,人工的(甚至是专家)进行匹配的工作量都是不可计数的。 对于wordnet,个人觉得,高效的使用才是关键,目前的这种查字典的方式,效率太低,如果对小而精的本体,wordnet的运行时间很长,不能做到实时。而对于大而全的本体,wordnet又不是领域相关,基本上没有作用,比如对生物学本体等,连词都查不到,呵呵。但是不可否认,wordnet确实是一种技术,有它的适用场景,关键在于怎么用好它。 |
-- 作者:Ambrosia -- 发布时间:7/18/2006 11:13:00 AM -- 以下是引用iamwym在2006-7-17 19:51:00的发言:[/b] wordnet这个东西太汗了,革命创新是没有的,但是这种标准化的工作总要有人去做,而且做好也不简单。 ————————————————————————正如leopard所说,wordnet的主要问题是效率和准确性,不过字典这个东西本身做起来就吃力不讨好,呵呵 我对mapping没有怎么专门研究过,但是现在的趋势就是把mapping做到编辑器里面,同时编辑多个本体,在他们之间创立mapping,支持manual, semi/automatic的方式去管理mapping。纯粹用机器也是不现实的。 ————————————————————————没有怎么专门研究就不要一搞说人家研究方向有问题,呵呵,上纲上线的。还有,你要是强拒谁的文章最好把理由写清楚。我最怕给的1行评语的人,搞不清楚是他的问题还是我的问题。 |
-- 作者:iamwym -- 发布时间:7/18/2006 2:57:00 PM -- 楼上的同学,neon和cbio项目就是这个趋势,我比较相信这两个project的趋势也是以后ontology发展方向的趋势。其中关于mapping的解释就是这个,很巧的是本人正好负责这个workpackage,也就是定义下一代ontology的模型,所以本人还是专门研究过的,而且得到partner的很大程度认可的。 一般我写review都是比较详细的,但是我没办法让同事写了详细,他们来问我,what can I do if I dont understand this paper? should I just write 'I dont understand this piece of shit'? 当然他是开玩笑的,不过我很相信他不会写很多上去——顺便提一下,他也是iswc06的pc。 我说你的研究方向有问题,可能有一些误会,我指的是你的research methodology在我的角度看来存在一定问题,而不是说你的research topic的问题,topic上永远是见仁见智的,呵呵。如果有什么误会还请见谅。 |
-- 作者:iamwym -- 发布时间:7/18/2006 3:10:00 PM --
关于大而全的本体,其实趋势也有不同的。一个是完全是名词库,比如医学生物学名词库,这种情况不存在ABOX,基本都是TBOX,这种情况匹配的工作量如果不把TBOX拆了,基本没戏。另外一种就是大的ABOX,这种情况下,只要MAP TBOX就可以了,但TBOX也不很小,这时候自动MAPPING加上手工修正,会比较有趣。 关于WORDNET,我觉得以后硬件升级了,自然就好,WORDNET还是比较偏重生活用词的,印象中似乎WORDNET有其他学科的扩展词库吧。 |
-- 作者:Ambrosia -- 发布时间:7/18/2006 5:44:00 PM -- 以下是引用iamwym在2006-7-18 14:57:00的发言: 楼上的同学,neon和cbio项目就是这个趋势,我比较相信这两个project的趋势也是以后ontology发展方向的趋势。其中关于mapping的解释就是这个,很巧的是本人正好负责这个workpackage,也就是定义下一代ontology的模型,所以本人还是专门研究过的,而且得到partner的很大程度认可的。 ————————————————————————很好!支持!这两个project的趋势是不是就是你说的“把mapping做到编辑器里面,同时编辑多个本体,在他们之间创立mapping,支持manual, semi/automatic的方式去管理mapping”? 一般我写review都是比较详细的,但是我没办法让同事写了详细,他们来问我,what can I do if I dont understand this paper? should I just write 'I dont understand this piece of shit'? 当然他是开玩笑的,不过我很相信他不会写很多上去——顺便提一下,他也是iswc06的pc。 ————————————————————————一点都不好笑,我和同学经常得到类似的评语。它的好处是:让我们都有超高的心理承受能力;坏处是,它并不能指出什么问题,呵呵。顺便提一下,我投iswc06的唯一目的就是挨骂。 我说你的研究方向有问题,可能有一些误会,我指的是你的research methodology在我的角度看来存在一定问题,而不是说你的research topic的问题,topic上永远是见仁见智的,呵呵。如果有什么误会还请见谅。 ————————————————————————谢谢!我在毫无项目支持和相关指导的环境下作研究,压力是相当大的,如果是methodology还好说,topic就要去跳楼了,呵呵。你觉得research methodology存在什么问题呢? |
-- 作者:Ambrosia -- 发布时间:7/18/2006 6:00:00 PM -- 顺便提几个关于HuWei的文章中的问题: 1 the case study翻成中文是什么意思,是不是和experiments and results差不多? 2 w.r.t.这个缩写是不是就是with reference to? 3 我感觉他们的实验完全是OAEI2005上的实验,是不是这样啊? 还有,能不能顺便推荐几本有关AI的经典理论和方法的书,我手头只有一本中文的,感觉讲的不够。谢谢! |
-- 作者:iamwym -- 发布时间:7/18/2006 7:53:00 PM --
1. 是的,明年一月我们的project technical report正式发布,就可以看到了。 2. 主要问题在英语表达,很多国内的paper英语表达完全是中式英语,除了中国人没人知道文章说什么。人家是真的看不懂,所以comments自然没有了。根源上还是中文术语和英文术语的理解问题,中国研究人员喜欢用中文的说法去组织英文的语句,这种用法不存在于英文, 所以不能怪别人看不懂。有时候不只是一个句子的问题,更是上下文组织的问题。比如吧,很多国内研究者说语义网,那么很多一知半解的学生就顺口说语义网络,这两个词是不同的研究方向。反映到paper上,semantic web和semantic networks就乱用了。 3. 研究方法的问题,下次开个新贴专题讨论吧,不是一两句话可以说清的。这个需要从导师那边学的,可是国内的情况……确实也难为了学生。 |
-- 作者:Ambrosia -- 发布时间:7/19/2006 7:58:00 AM -- 对你们的研究成果很期待!reviewer一般会说读起来很painful,呵呵。国外的情况好些吗?AIFB确实没得说,我有个在singerpor的同学还不是很痛苦。老师到处跑钱,毕业要求高得要死,老师不鼓励,还劝他们退学。我只不过有选择topic的权利而以。 |
-- 作者:leopard -- 发布时间:7/19/2006 8:29:00 AM -- 顺便提几个关于HuWei的文章中的问题: 1 the case study翻成中文是什么意思,是不是和experiments and results差不多? 2 w.r.t.这个缩写是不是就是with reference to? 3 我感觉他们的实验完全是OAEI2005上的实验,是不是这样啊? 还有,能不能顺便推荐几本有关AI的经典理论和方法的书,我手头只有一本中文的,感觉讲的不够。谢谢 |
-- 作者:Ambrosia -- 发布时间:7/19/2006 11:31:00 AM -- 谢谢leopard,这个研究方向真是让人振奋阿,呵呵。我还有点不懂,OAEI2005到底是个啥?你们拿自己的东西和别人做比较试验,需要基于相同的testbed把,否则必须有别人的源码。但是文章中又说是实现了别人的算法,是你们自己实现的马?或者是OAEI2005中的测试结果,别人自己实现的算法 |
-- 作者:iamwym -- 发布时间:7/19/2006 3:50:00 PM -- 我觉得case study似乎不应该是测试集,应该说是实例研究比较合适些…… |
-- 作者:leopard -- 发布时间:7/19/2006 6:28:00 PM -- OAEI2005是一个本体匹配工具的比赛,它一般作为本体匹配workshop的一部分举办,会议的组织者提供一些不同的本体,每个参赛者提交自己的匹配结果(当然这里面的花样很多),今年也有这个比赛的,在ISWC的workshop om2006中,叫OAEI2006。 现在不少的工作都可以基于oaei提供的testbed做实验,这样许多人直接可以拿你的结果和比赛参加者的结果进行比较了,这样有了统一的testbed,对于本体匹配的发展很有帮助,这里面的几个代表人物有法国的jerome和意大利的pavel等。 现在的一些算法是开源的,所以可以直接使用,而有一些则不是,需要自己实现,这点比较的麻烦。但是个人觉得还是有必要的,因为在实现的过程中,你可以慢慢体会别人的一些思想,一些细节的困难等等,可以为以后的改进做基础。 其实我也不太知道case study的准确叫法,感觉iamwym的称法似乎更合适一点,呵呵。 |
-- 作者:iamwym -- 发布时间:7/19/2006 7:19:00 PM -- 其实这种词不用翻译,知道是什么就行了吧,呵呵。外企里面,都说,有个case要处理一下,怎么翻译呢,事件,事情,呵呵,都不合适。 |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
179.688ms |