W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL--显示贴子

以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  [BLUE]专题贴讨论－ontology mapping[/BLUE]  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=35646)

--  作者：iamwym
--  发布时间：7/15/2006 3:59:00 PM

--  [BLUE]专题贴讨论－ontology mapping[/BLUE]
由于暑假的开始，版上相对会安静些，于是想集中打造一些精华讨论贴，每个帖子都会有一个主题。主要的讨论范围在：
1. 存在问题
2. 发展趋势
3. 相关工具

当然不限制于这些。

本贴是关于ontology mapping，请大家畅所欲言。

[此贴子已经被admin于2006-7-16 9:53:29编辑过]

--  作者：iamwym
--  发布时间：7/15/2006 4:02:00 PM

--
先开个头吧，ontology mapping现在最大的问题是不能自动化，其实完全自动化是不大可能的，问题在于人类怎么参与到其中效率和准确性最高。

--  作者：tlqtib
--  发布时间：7/15/2006 8:42:00 PM

--
ontology mapping是不是指的是异质本体的集成啊!

--  作者：Ambrosia
--  发布时间：7/15/2006 9:11:00 PM

--
也不完全是。其实它有很多“边缘”区域的。工具应该有更强的自动推理能力，让用户能用最少的领域知识就能参与其中。这个功能现在已经把我搞疯了，呵呵

--  作者：hothhu
--  发布时间：7/16/2006 12:06:00 AM

--
首先对本体的研究还不是相当透彻，现在相对成熟的可用本体还是比较少的。所以做的ontology mapping大多数是有很大局限性，语义映射是人才能够思考的问题，我不认为机器能够完全代替人实现这点。

--  作者：iamwym
--  发布时间：7/16/2006 1:35:00 AM

--
我觉得关于ontology, ontology mapping这些东西都不应该让普通用户去接触它，就如普通用户看不到xml的道理是一样的。本体的获取还是应该限制在domain expert和机器通过schema或者其它的数据结构获取。

--  作者：Ambrosia
--  发布时间：7/16/2006 9:01:00 AM

--
我不同意。ir一开始也是只给专家用的，所以只有几个简单的模型。但是google现在不是傻瓜型的吗？用swoogle搜到10000个ontology没问题，相对成熟的可用本体是很多的。语义映射本身就是ontology mapping的热点。机器能够完全代替人是语义网和人工智能的终极目标。我总觉得语义网是人工智能与网络的结合。现在很多语义网上的技术也说明了这一点。

关键是如何定义普通用户。实际上普通用户就是程序员，他不一定要了解领域知识。如果限制在domain expert和机器通过schema或者其它的数据结构获取，ontology本身没有什么价值。domain expert对领域熟得很。我们这些领域外行人就是普通用户。

--  作者：hothhu
--  发布时间：7/16/2006 9:27:00 AM

--
你说的“google傻瓜型”只是指给用户的感觉，其实google内部实现还不能完全全自动，不然要那么多员工干吗？再说google还没实现到语义的层次。

全自动的ontology mapping相当于理想的共产主义，我认为不可能完全实现，必定需要专家（可能是真正的专家，也可能是一般用户自我的知识）的不同程度的参与。

--  作者：hothhu
--  发布时间：7/16/2006 9:31:00 AM

--
ontology mapping是建立在schema mapping，一般的非语义映射完全可以用schema mapping的方法来做，对于涉及语义的映射，才用本体的推理来做。

但是，现在schema mapping做的很成熟、完全自动化了？

--  作者：jl1022
--  发布时间：7/16/2006 9:34:00 AM

--
我的几个问题：
owl语言中有表示part of关系的词吗？我怎么感觉owl中只表示kind of 关系呢？
一个菜鸟问题：ontology mapping 需要做哪些工作？我感觉ontology 语言中都有相应的map的语句，还用得着做其他工作了吗？比如owl中的equivalentclass ,equivalentProperty等
还有一个问题：我们总是说ontology 的五个基本建模元语，类、关系、函数、公理、实例。其他的几个元语倒还能够在owl类型的几个典型例子中找到，但我不知道函数这一个建模元语在owl语言中对应什么语句呢？那位能指点一下，在哪个例子中的哪一部分就是对函数的体现？

[此贴子已经被iamwym于2006-7-16 18:28:41编辑过]

--  作者：hothhu
--  发布时间：7/16/2006 1:06:00 PM

--
itersection表示 part of的关系吧。

--  作者：jl1022
--  发布时间：7/16/2006 3:00:00 PM

--
我看不是吧！  an owl:intersectionof statement describes a class for which the class extension contains precisely those individuals that are members of the class extension of all class descriptions in the list.   代表几个类的交集的意思。不是partof 的意思

--  作者：iamwym
--  发布时间：7/16/2006 6:11:00 PM

--

以下是引用Ambrosia在2006-7-16 9:01:00的发言：
我不同意。ir一开始也是只给专家用的，所以只有几个简单的模型。但是google现在不是傻瓜型的吗？用swoogle搜到10000个ontology没问题，相对成熟的可用本体是很多的。语义映射本身就是ontology mapping的热点。机器能够完全代替人是语义网和人工智能的终极目标。我总觉得语义网是人工智能与网络的结合。现在很多语义网上的技术也说明了这一点。

你的第一个观点正好证明了我的观点——google的成功就是在于傻瓜，它把复杂的技术藏在了用户之后，操作就是这么简单，但是的后台是相当复杂的。

“语义映射本身就是ontology mapping的热点”，这句话我不明白，语义映射是什么，它和本体映射什么关系？有这样的说法么？citation在哪里？

机器完全替代人绝对不是语义网的目标，这个目标在AI界也是初创时期的目标，现在随便谁都知道，机器替代人的一天，就是人类灭亡的一天。

语义网是人工智能和网络的结合这个观点显然不成立，应该是和web技术的结合，这是个一般常识。

对不起我完全不同意你接下来的观点，普通用户在哪里都是像我老爸老妈这样用电脑的人，他们上班看网页，收邮件，查google，写文档，和我用IM，就是这样。程序员显然是语义网的开发者之一，他们可以不怎么懂sw，会用api就可以，而我们科研人员（大学和大公司）目的就是怎么样提供一个让程序员简单开发sw应用的api和怎样建立一个面向普通用户程序的规范，框架，原形，和相应的指导。

我个人认为这位朋友非常有自己的见解，但是恕我直言，在我看来，你的研究在方向上存在问题。

--  作者：iamwym
--  发布时间：7/16/2006 6:14:00 PM

--

以下是引用hothhu在2006-7-16 9:31:00的发言：
ontology mapping是建立在schema mapping，一般的非语义映射完全可以用schema mapping的方法来做，对于涉及语义的映射，才用本体的推理来做。

但是，现在schema mapping做的很成熟、完全自动化了？

没有，基于learning和其它各种AI技术的自动mapping，能够实现一定程度上的mapping，可是仍然需要人工介入。现有的可用系统，一般都是完全手工建立的ontology mapping。

--  作者：iamwym
--  发布时间：7/16/2006 7:47:00 PM

--

以下是引用jl1022在2006-7-16 9:34:00的发言：
我的几个问题：
owl语言中有表示part of关系的词吗？我怎么感觉owl中只表示kind of 关系呢？
一个菜鸟问题：ontology mapping 需要做哪些工作？我感觉ontology 语言中都有相应的map的语句，还用得着做其他工作了吗？比如owl中的equivalentclass ,equivalentProperty等
还有一个问题：我们总是说ontology 的五个基本建模元语，类、关系、函数、公理、实例。其他的几个元语倒还能够在owl类型的几个典型例子中找到，但我不知道函数这一个建模元语在owl语言中对应什么语句呢？那位能指点一下，在哪个例子中的哪一部分就是对函数的体现？

[此贴子已经被iamwym于2006-7-16 18:28:41编辑过]

没有，但你可以自己建立。
你说的这些就是mapping之中的。
函数不包括在owl中。

--  作者：Ambrosia
--  发布时间：7/16/2006 8:37:00 PM

--
好的工具底层当然是透明的，你看得见window的底层马，microsoft那么多人干啥的。第2点我是同意的。你说google全自动，你总得知道要查的关键字把，呵呵

以下是引用hothhu在2006-7-16 9:27:00的发言：
你说的“google傻瓜型”只是指给用户的感觉，其实google内部实现还不能完全全自动，不然要那么多员工干吗？再说google还没实现到语义的层次。
全自动的ontology mapping相当于理想的共产主义，我认为不可能完全实现，必定需要专家（可能是真正的专家，也可能是一般用户自我的知识）的不同程度的参与。

--  作者：Ambrosia
--  发布时间：7/16/2006 8:40:00 PM

--
schema mapping本身就是带语义的，你去查一下cupid, SM, LSD。完全自动化是不可能，也不应该的

以下是引用hothhu在2006-7-16 9:31:00的发言：
ontology mapping是建立在schema mapping，一般的非语义映射完全可以用schema mapping的方法来做，对于涉及语义的映射，才用本体的推理来做。
但是，现在schema mapping做的很成熟、完全自动化了？

--  作者：Ambrosia
--  发布时间：7/16/2006 8:49:00 PM

--
iamwym说得对！他一说function我也晕了，以为又是自己的规范没看懂呢，呵呵

以下是引用iamwym在2006-7-16 19:47:00的发言：
[quote]以下是引用jl1022在2006-7-16 9:34:00的发言：
我的几个问题：
  owl语言中有表示part of关系的词吗？我怎么感觉owl中只表示kind of 关系呢？
  一个菜鸟问题：ontology mapping 需要做哪些工作？我感觉ontology 语言中都有相应的map的语句，还用得着做其他工作了吗？比如owl中的equivalentclass ,equivalentProperty等
  还有一个问题：我们总是说ontology 的五个基本建模元语，类、关系、函数、公理、实例。其他的几个元语倒还能够在owl类型的几个典型例子中找到，但我不知道函数这一个建模元语在owl语言中对应什么语句呢？那位能指点一下，在哪个例子中的哪一部分就是对函数的体现？

[此贴子已经被iamwym于2006-7-16 18:28:41编辑过]

[/quote]
没有，但你可以自己建立。
你说的这些就是mapping之中的。
函数不包括在owl中。

--  作者：Ambrosia
--  发布时间：7/16/2006 9:04:00 PM

--

以下是引用iamwym在2006-7-16 18:11:00的发言：

你的第一个观点正好证明了我的观点——google的成功就是在于傻瓜，它把复杂的技术藏在了用户之后，操作就是这么简单，但是的后台是相当复杂的。

“语义映射本身就是ontology mapping的热点”，这句话我不明白，语义映射是什么，它和本体映射什么关系？有这样的说法么？citation在哪里？

——————————————————Yuzhong Qu, Wei Hu, Gong Cheng"constructing virtual documents for ontology matching" In Proceedings at www2006.可能我没说清楚，这个又叫lingustic，呵呵

机器完全替代人绝对不是语义网的目标，这个目标在AI界也是初创时期的目标，现在随便谁都知道，机器替代人的一天，就是人类灭亡的一天。

——————————————————说实在的，我觉得你和我一样，日剧看多了，呵呵。科学和道德是两个不同的领域，比如人体克隆

语义网是人工智能和网络的结合这个观点显然不成立，应该是和web技术的结合，这是个一般常识。

——————————————————抱歉，我说得不准确，实际我也是这个意思

——————————————————我只是说要减轻科研人员的参与，ontology enigeering是一个很烦的过程，你老爸老妈真厉害

我个人认为这位朋友非常有自己的见解，但是恕我直言，在我看来，你的研究在方向上存在问题。

——————————————————谢谢！我喜欢听别人的意见，也喜欢反驳，当然是真诚的。而且更要命的是我喜欢给别人提意见，呵呵。这可能是我容易倒霉的原因之一，呵呵

--  作者：iamwym
--  发布时间：7/16/2006 10:12:00 PM

--
是hu wei的paper啊？哪篇呢？

--  作者：Ambrosia
--  发布时间：7/17/2006 8:01:00 AM

--
www2006啊

--  作者：leopard
--  发布时间：7/17/2006 8:22:00 AM

--
个人觉得，本体匹配的最主要的目的是实现数据（或信息）的互操作性（interoperability），但是这个互操作性的高低却没有定论，当然完全的自动是最好的，呵呵。人工的接入我觉得是不可避免的，这个问题在特定领域本体的匹配中尤为重要，一些通用的技术，例如wordnet等，都很难处理这种特定领域本体。目前本体匹配的主要工作还停留在语法层面上（包括自然语言处理，本体结构特征处理等），但是真正基于语义的匹配还比较难，所以目前一些工作试图绕开这个问题，采用外部知识（例如bayesian网，community（EWSC2006的一篇文章））来引导匹配，但是个人觉得这个从本质上只能解决一部分的问题，所以本体匹配这个领域还是有很多工作可以做的。

--  作者：Ambrosia
--  发布时间：7/17/2006 6:38:00 PM

--
wordnet在huwei的文章中被bs了呢

--  作者：iamwym
--  发布时间：7/17/2006 7:51:00 PM

--
wordnet这个东西太汗了，革命创新是没有的，但是这种标准化的工作总要有人去做，而且做好也不简单。我对mapping没有怎么专门研究过，但是现在的趋势就是把mapping做到编辑器里面，同时编辑多个本体，在他们之间创立mapping，支持manual, semi/automatic的方式去管理mapping。纯粹用机器也是不现实的。

--  作者：leopard
--  发布时间：7/18/2006 9:36:00 AM

--
其实目前的本体发展有两个趋势，一种是小而精，一种是大而全，对于小而精的本体，就像iamwym所说，可以做到编辑器等中，有时甚至人工就可以进行匹配，而大而全的本体，一般是对一个领域的详细的描述，人工的（甚至是专家）进行匹配的工作量都是不可计数的。

对于wordnet，个人觉得，高效的使用才是关键，目前的这种查字典的方式，效率太低，如果对小而精的本体，wordnet的运行时间很长，不能做到实时。而对于大而全的本体，wordnet又不是领域相关，基本上没有作用，比如对生物学本体等，连词都查不到，呵呵。但是不可否认，wordnet确实是一种技术，有它的适用场景，关键在于怎么用好它。

--  作者：Ambrosia
--  发布时间：7/18/2006 11:13:00 AM

--
以下是引用iamwym在2006-7-17 19:51:00的发言：[/b]
wordnet这个东西太汗了，革命创新是没有的，但是这种标准化的工作总要有人去做，而且做好也不简单。

————————————————————————正如leopard所说，wordnet的主要问题是效率和准确性，不过字典这个东西本身做起来就吃力不讨好，呵呵

我对mapping没有怎么专门研究过，但是现在的趋势就是把mapping做到编辑器里面，同时编辑多个本体，在他们之间创立mapping，支持manual, semi/automatic的方式去管理mapping。纯粹用机器也是不现实的。

————————————————————————没有怎么专门研究就不要一搞说人家研究方向有问题，呵呵，上纲上线的。还有，你要是强拒谁的文章最好把理由写清楚。我最怕给的1行评语的人，搞不清楚是他的问题还是我的问题。

--  作者：iamwym
--  发布时间：7/18/2006 2:57:00 PM

--
楼上的同学，neon和cbio项目就是这个趋势，我比较相信这两个project的趋势也是以后ontology发展方向的趋势。其中关于mapping的解释就是这个，很巧的是本人正好负责这个workpackage，也就是定义下一代ontology的模型，所以本人还是专门研究过的，而且得到partner的很大程度认可的。

一般我写review都是比较详细的，但是我没办法让同事写了详细，他们来问我，what can I do if I dont understand this paper? should I just write 'I dont understand this piece of shit'? 当然他是开玩笑的，不过我很相信他不会写很多上去——顺便提一下，他也是iswc06的pc。

我说你的研究方向有问题，可能有一些误会，我指的是你的research methodology在我的角度看来存在一定问题，而不是说你的research topic的问题，topic上永远是见仁见智的，呵呵。如果有什么误会还请见谅。

--  作者：iamwym
--  发布时间：7/18/2006 3:10:00 PM

--

以下是引用leopard在2006-7-18 9:36:00的发言：
其实目前的本体发展有两个趋势，一种是小而精，一种是大而全，对于小而精的本体，就像iamwym所说，可以做到编辑器等中，有时甚至人工就可以进行匹配，而大而全的本体，一般是对一个领域的详细的描述，人工的（甚至是专家）进行匹配的工作量都是不可计数的。

关于大而全的本体，其实趋势也有不同的。一个是完全是名词库，比如医学生物学名词库，这种情况不存在ABOX，基本都是TBOX，这种情况匹配的工作量如果不把TBOX拆了，基本没戏。另外一种就是大的ABOX，这种情况下，只要MAP TBOX就可以了，但TBOX也不很小，这时候自动MAPPING加上手工修正，会比较有趣。

关于WORDNET，我觉得以后硬件升级了，自然就好，WORDNET还是比较偏重生活用词的，印象中似乎WORDNET有其他学科的扩展词库吧。

--  作者：Ambrosia
--  发布时间：7/18/2006 5:44:00 PM

--
以下是引用iamwym在2006-7-18 14:57:00的发言：
楼上的同学，neon和cbio项目就是这个趋势，我比较相信这两个project的趋势也是以后ontology发展方向的趋势。其中关于mapping的解释就是这个，很巧的是本人正好负责这个workpackage，也就是定义下一代ontology的模型，所以本人还是专门研究过的，而且得到partner的很大程度认可的。

————————————————————————很好！支持！这两个project的趋势是不是就是你说的“把mapping做到编辑器里面，同时编辑多个本体，在他们之间创立mapping，支持manual, semi/automatic的方式去管理mapping”？

————————————————————————一点都不好笑，我和同学经常得到类似的评语。它的好处是：让我们都有超高的心理承受能力；坏处是，它并不能指出什么问题，呵呵。顺便提一下，我投iswc06的唯一目的就是挨骂。

————————————————————————谢谢！我在毫无项目支持和相关指导的环境下作研究，压力是相当大的，如果是methodology还好说，topic就要去跳楼了，呵呵。你觉得research methodology存在什么问题呢？

--  作者：Ambrosia
--  发布时间：7/18/2006 6:00:00 PM

--
顺便提几个关于HuWei的文章中的问题：

1 the case study翻成中文是什么意思，是不是和experiments and results差不多？

2 w.r.t.这个缩写是不是就是with reference to?

3 我感觉他们的实验完全是OAEI2005上的实验，是不是这样啊？

还有，能不能顺便推荐几本有关AI的经典理论和方法的书，我手头只有一本中文的，感觉讲的不够。谢谢!

--  作者：iamwym
--  发布时间：7/18/2006 7:53:00 PM

--

以下是引用Ambrosia在2006-7-18 17:44:00的发言：
以下是引用iamwym在2006-7-18 14:57:00的发言：

1. 是的，明年一月我们的project technical report正式发布，就可以看到了。
2. 主要问题在英语表达，很多国内的paper英语表达完全是中式英语，除了中国人没人知道文章说什么。人家是真的看不懂，所以comments自然没有了。根源上还是中文术语和英文术语的理解问题，中国研究人员喜欢用中文的说法去组织英文的语句，这种用法不存在于英文, 所以不能怪别人看不懂。有时候不只是一个句子的问题，更是上下文组织的问题。比如吧，很多国内研究者说语义网，那么很多一知半解的学生就顺口说语义网络，这两个词是不同的研究方向。反映到paper上，semantic web和semantic networks就乱用了。
3. 研究方法的问题，下次开个新贴专题讨论吧，不是一两句话可以说清的。这个需要从导师那边学的，可是国内的情况……确实也难为了学生。

--  作者：Ambrosia
--  发布时间：7/19/2006 7:58:00 AM

--
对你们的研究成果很期待！reviewer一般会说读起来很painful，呵呵。国外的情况好些吗？AIFB确实没得说，我有个在singerpor的同学还不是很痛苦。老师到处跑钱，毕业要求高得要死，老师不鼓励，还劝他们退学。我只不过有选择topic的权利而以。

--  作者：leopard
--  发布时间：7/19/2006 8:29:00 AM

--
顺便提几个关于HuWei的文章中的问题：

1 the case study翻成中文是什么意思，是不是和experiments and results差不多？
－－－－－－－－－－基本上就是指testbed，翻译成中文应该叫测试集吧

2 w.r.t.这个缩写是不是就是with reference to?
－－－－－－－－－－with respect to的缩写，金山词霸可以查到，呵呵

3 我感觉他们的实验完全是OAEI2005上的实验，是不是这样啊？
－－－－－－－－－－目前确实是基于OAEI2005的benchmarks做的实验，因为可以从paper中看到，文章的方法对于匿名节点大量存在，以及通过字符串匹配不易找到mapping的情况有比较好的效果，这个在benchmark的测试集上都有所体现，自然选用该测试集了

还有，能不能顺便推荐几本有关AI的经典理论和方法的书，我手头只有一本中文的，感觉讲的不够。谢谢

--  作者：Ambrosia
--  发布时间：7/19/2006 11:31:00 AM

--
谢谢leopard，这个研究方向真是让人振奋阿，呵呵。我还有点不懂，OAEI2005到底是个啥？你们拿自己的东西和别人做比较试验，需要基于相同的testbed把，否则必须有别人的源码。但是文章中又说是实现了别人的算法，是你们自己实现的马？或者是OAEI2005中的测试结果，别人自己实现的算法

--  作者：iamwym
--  发布时间：7/19/2006 3:50:00 PM

--
我觉得case study似乎不应该是测试集，应该说是实例研究比较合适些……

--  作者：leopard
--  发布时间：7/19/2006 6:28:00 PM

--
OAEI2005是一个本体匹配工具的比赛，它一般作为本体匹配workshop的一部分举办，会议的组织者提供一些不同的本体，每个参赛者提交自己的匹配结果（当然这里面的花样很多），今年也有这个比赛的，在ISWC的workshop om2006中，叫OAEI2006。

现在不少的工作都可以基于oaei提供的testbed做实验，这样许多人直接可以拿你的结果和比赛参加者的结果进行比较了，这样有了统一的testbed，对于本体匹配的发展很有帮助，这里面的几个代表人物有法国的jerome和意大利的pavel等。

现在的一些算法是开源的，所以可以直接使用，而有一些则不是，需要自己实现，这点比较的麻烦。但是个人觉得还是有必要的，因为在实现的过程中，你可以慢慢体会别人的一些思想，一些细节的困难等等，可以为以后的改进做基础。

其实我也不太知道case study的准确叫法，感觉iamwym的称法似乎更合适一点，呵呵。

--  作者：iamwym
--  发布时间：7/19/2006 7:19:00 PM

--
其实这种词不用翻译，知道是什么就行了吧，呵呵。外企里面，都说，有个case要处理一下，怎么翻译呢，事件，事情，呵呵，都不合适。

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

179.688ms