W3CHINA.ORG讨论区--关于语义标注的一些个人思考，欢迎大家讨论

新书推介：《语义网技术体系》
作者：瞿裕忠，胡伟，程龚

XML论坛

>>W3CHINA.ORG讨论区<<

计算机科学论坛

SOAChina论坛

Blog

开放翻译计划

新浪微博

首页

软件下载

资料下载

核心成员

帮助

>> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论，如：Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。

[返回] W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL → W3CHINA.ORG讨论区 - Web新技术讨论 → 『 Semantic Web(语义Web)/描述逻辑/本体』 → 关于语义标注的一些个人思考，欢迎大家讨论

◇查看新帖 ◇ 用户列表 ◇

(订阅本版)

您是本帖的第 30715 个阅读者　　

*	贴子主题：关于语义标注的一些个人思考，欢迎大家讨论	举报打印推荐 IE收藏夹
	本主题类别:

superc_7

  威望：6
  等级：研一(彻夜钻研J2EE)
  文章：504
  积分：3396
  门派：XML.ORG.CN
  注册：2005/4/22

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第21楼

赞同lz的观点，很多想法我们不谋而合
对于本体的使用，感觉真正有意义的还是面向领域的本体
本体的重用非常重要，当然前提是某个领域有权威性的本体
权威性的本体怎么产生？可以领域内权威性组织制定
如果这种组织不存在的话可以通过自由竞争产生
语义标注的确是个很困难的问题，例如现有web向语义web延伸后，现有网络资源如何语义化?
语义标注到底应该由谁来完成？作者？读者？还是第三机构
究竟该以什么方式完成？机器自动？人工？还是相结合？
语义标注的词汇标签来源于哪里？受控的本体？非受控词汇？还是其他？
感觉太多的问题值得探讨

2006/5/18 16:14:00

superc_7

  威望：6
  等级：研一(彻夜钻研J2EE)
  文章：504
  积分：3396
  门派：XML.ORG.CN
  注册：2005/4/22

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第22楼

以下是引用iamwym在2005-6-16 6:40:00的发言：
就如各种软件，各种数据库很多内容不被共享，很多本体也不是为了通用而建立的。大家有了一个具体的项目，如果使用本体会有比较好的效率，才会去建立这么一个领域专用本体。我发现国内的研究人员存在空空地去建立一个本体，然后为这个本体去寻找一个用途，基本上是本末倒置了。所以才会出现楼上朋友的问题。
本体的建立，本来大家就各建各的。就如中国人看中文网页，美国人看英文网页道理一样，没有必要做到统一的标准。也没有听说网页的设计，软件的设计要有严格统一的标准咯。只要有统一的语言和正确的过程，就可以了。
本体研究很注重规模效应，一个学校几个人小打小闹根本不会出好成果。一个实验室几十人几百万的年投入才可能。这种除了国家重点实验室，国内还没有这个条件。说到底，构建本体，本题标注等等技术和理论都不是瓶颈，瓶颈在钱。protege为什么能流行最广，德国的KAON却不行，还不是开发protege的几所实验室财力雄厚？

嗯，有意义的本体一定要面向某个领域某种应用
而不是建立出本体之后再看它能干什么，这一点上非常赞同bm
本体的建立上我觉得应该更多的考虑重用现有资源，我在建自己的本体的时候首先应该考虑这个领域内是否已经有类似或者相关的本体，我的本体可以直接使用哪些已有本体，但这个前提是所有本体真正的“共享”，包括源码全部开放，这个可以实现吗？
最后，我还是觉得相关技术尚不成熟，是制约现在本体应用的瓶颈
当然bm说的也对，投钱搞研发的确是现在唯一的选择
问题是投了钱进去能否解决这个瓶颈呢？
要知道这个领域的发展受多方面制约，比如人工智能什么的

2006/5/18 16:25:00

superc_7

  威望：6
  等级：研一(彻夜钻研J2EE)
  文章：504
  积分：3396
  门派：XML.ORG.CN
  注册：2005/4/22

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第23楼

以下是引用Spark在2005-6-22 21:20:00的发言：
楼主的想法很正确，但是除此之外有没有一些更具建设性的观点可以share一下呢？语义标注的确是semanticweb的瓶颈（semanticweb的瓶颈还不止这一个），里面也是矛盾重重，有人就提议用机器学习的方法自动给web做标注，不过这点我倒是不太赞同，因为我既然已经可以通用的学习方法学习出某些web实例的语义，那我还有什么必要再将其标记出来呢？所以似乎只有人本身才有去做语义标记的必要（标记一些机器所不能理解的语义）。不过这种自动方法也不是完全不能用，如果语义标注加入了机器和人共同的作用力，既可以利用机器的快速性、又可以引入人的特有知识，这也许才是语义标注的一个好办法。一点谬论........

嗯，这方面有什么最新的论文呢？
语义标注的完全自动化或完全手工化的确都不是很可行
人机结合应该是主要方向。
语义标注的意义并不只限于机器理解资源的内容
标注产生的语义元数据可以作为资源的替身，我们对它进行处理就可以了
而不必再对资源进行处理，这显然更高效一些

2006/5/18 16:40:00

MerryZhang

  威望：4
  头衔：CTO
  等级：计算机学士学位
  文章：442
  积分：2808
  门派：W3CHINA.ORG
  注册：2006/1/4

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第24楼

以下是引用superc_7在2006-5-18 16:14:00的发言
语义标注的确是个很困难的问题，例如现有web向语义web延伸后，现有网络资源如何语义化?
语义标注到底应该由谁来完成？作者？读者？还是第三机构
究竟该以什么方式完成？机器自动？人工？还是相结合？
语义标注的词汇标签来源于哪里？受控的本体？非受控词汇？还是其他？
感觉太多的问题值得探讨

提出的问题都相当地好，比较精辟。
--语义标注的确是个很困难的问题，例如现有web向语义web延伸后，现有网络资源如何语义化?
这个问题正是语义标注想要解决的问题，通过对现有的网络资源的描述，并通过描述网络资源（网页）之间的关系，从而能够找到更加丰富的信息。如你输入一个音乐家的名字，那么就会将这个音乐家的朋友，作品，家乡，爱情等信息统统地展示出来，这也许就是语义网的魅力吧！
----------------------------------------------
那一段我们曾心贴着心，我想我更有权力关心你，可能你已走进别人风景，多希望也有星光的投影．努力为你改变，却变不了预留的伏笔．以为在你身边那也算永远
仿佛还是昨天，可是昨天已非常遥远，但闭上双眼我还看得见．

2006/5/18 16:42:00

MerryZhang

  威望：4
  头衔：CTO
  等级：计算机学士学位
  文章：442
  积分：2808
  门派：W3CHINA.ORG
  注册：2006/1/4

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第25楼

以下是引用superc_7在2006-5-18 16:25:00的发言：
本体的建立上我觉得应该更多的考虑重用现有资源，我在建自己的本体的时候首先应该考虑这个领域内是否已经有类似或者相关的本体，我的本体可以直接使用哪些已有本体，但这个前提是所有本体真正的“共享”，包括源码全部开放，这个可以实现吗？

个人觉得虽然网上有了已经建立的本体，但感觉也应该是在权威机构构建的标准模型的基础上构建起来的本体会比较能够为大家所接受。这样才能够为大家（指某个领域）所接受，毕竟那是很多的专家的知识的结晶。
----------------------------------------------
那一段我们曾心贴着心，我想我更有权力关心你，可能你已走进别人风景，多希望也有星光的投影．努力为你改变，却变不了预留的伏笔．以为在你身边那也算永远
仿佛还是昨天，可是昨天已非常遥远，但闭上双眼我还看得见．

2006/5/18 16:48:00

superc_7

  威望：6
  等级：研一(彻夜钻研J2EE)
  文章：504
  积分：3396
  门派：XML.ORG.CN
  注册：2005/4/22

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第26楼

以下是引用shen_edward在2005-6-23 11:04:00的发言：
通过自学习进行本体自动标注是可能的，不过前提是有一个比较完整的领域本体的建立，类似于专家系统的原理，在有大量现成本体的情况下，通过实例类比学习，对新的实例进行自动标注。而且这种学习本身可以是基于实例和知识的，这个过程也许会出现一些meta－ontology。个人观点！

这类似于自动分类里的KNN算法
这倒给我们一个新的想法
现有的一些自动分类、聚类算法，如KNN，Bayes，SVM等等的原理
是否可以借鉴到这里来呢？
更广一步，现有的一些机器自动方面的成果可不可以借鉴过来？

2006/5/18 16:49:00

superc_7

  威望：6
  等级：研一(彻夜钻研J2EE)
  文章：504
  积分：3396
  门派：XML.ORG.CN
  注册：2005/4/22

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	第27楼

以下是引用ztszhang在2005-12-25 19:32:00的发言：
看了大家的发言，收获颇多！
个人认为：
1 本体的建立和应用应该是从单独领域开始的，然后发展到多个本体的间的应用，在这期间要完成本体的合成与影射，最后才能发展成整个Web公用的本体。
2 而对于本体的标注，还是应该由机器自动来完成，试想谁会为了发布一下信息，还要一点点对自己的页面进行标注呢。
3 赞成jiexincao说的本题的建立方法：语言不能成为区分一个本体的标志，只是用不同的属性来区分对一个概念的不同的形式化表示（不同的语言）。

对于第2点，如果有精确的激励机制，使得创建者有动力去正确的标引自己的资源是再好不过了，但很多情况下这种激励机制很难或根本不存在
对于第3点，SKOS中很重要的一个想法就是，概念和它的词汇标签的分离，我们使用一个概念去标引资源，而不是某个特定的词汇

2006/5/18 17:34:00

GoogleAdSense

  等级：大一新生
  文章：1
  积分：50
  门派：无门无派
  院校：未填写
  注册：2007-01-01

	广告

2024/5/2 6:14:18

本主题贴数27，分页： [1] [2] [3]

管理选项：修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	93.750ms