W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL--显示贴子

以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  [原创]Information Extraction和Information Retrieve的区别  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=33094)

--  作者：MerryZhang
--  发布时间：5/26/2006 1:43:00 PM

--  [原创]Information Extraction和Information Retrieve的区别

Information Extraction(IE)和Information Retrieve(IR)虽然只差一个词，但是在Web和搜索中的意义和作用却是不一样的。
IR通常是输入一些关键词，从而搜索出相关的文档。而IE则是搜索出相关的结果。采用IR，通常人们还需要花费大量的经历去阅读Documents才能得到相关的信息，而IE则直接帮你找到想要的信息和答案了。

这我想也是SW的一个意义吧！

--  作者：iamwym
--  发布时间：5/26/2006 5:35:00 PM

--
楼主读一下这个先。广义ai上，这两个是不怎么分的吧。
http://www.aaai.org/AITopics/html/info.html

--  作者：MerryZhang
--  发布时间：5/26/2006 11:15:00 PM

--

以下是引用iamwym在2006-5-26 17:35:00的发言：
楼主读一下这个先。广义ai上，这两个是不怎么分的吧。
http://www.aaai.org/AITopics/html/info.html

打不开阿！还有，这并不是广义AI的定义阿。

--  作者：iamwym
--  发布时间：5/27/2006 12:53:00 AM

--
不是吧，aaai的官方网站你打不开，汗，那还搞啥AI啊……升级连接先吧
内容太多了，贴不上来。恕我直言啊，楼主你的理解有很大问题呢，关键字提取就是IR，楼主有没有读过IR的教材啊……现在都是auto ir好不好，谁还用人工啊？
关于information retrieval，这个能访问么？http://www.dcs.gla.ac.uk/Keith/Preface.html
要说不同，我贴一段来自GATE的吧：
Information Extraction is not Information Retrieval: Information Extraction differs from traditional techniques in that it does not recover from a collection a subset of documents which are hopefully relevant to a query, based on key-word searching (perhaps augmented by a thesaurus). Instead, the goal is to extract from the documents (which may be in a variety of languages) salient facts about prespecified types of events, entities or relationships. These facts are then usually entered automatically into a database, which may then be used to analyse the data for trends, to give a natural language summary, or simply to serve for on-line access.

楼主有可能是读了这个以后的感触吧，他们说的keyword search，可不是“人们还需要花费大量的经历去阅读Documents才能得到相关的信息”。

IE对于SW更有用，显然这点在text2onto的成功上已经被证明了，但这不是sw的意义所在。IE给sw提供了解析非结构化数据的技术，而不是sw反过来支持IE。

说个题外话，sheffield的人，基本上是用锤子把这个IE概念强行建立起来的，呵呵，他们无论什么项目都要把GATE敲进去，还说是自然语言工程中的eclipse。有些英国人仗着英语是母语，确实有点皮厚。

--  作者：MerryZhang
--  发布时间：5/27/2006 9:07:00 PM

--
多谢斑竹，也许我的理解的确有偏差。

--  作者：MerryZhang
--  发布时间：5/27/2006 9:12:00 PM

--

以下是引用iamwym在2006-5-27 0:53:00的发言：
不是吧，aaai的官方网站你打不开，汗，那还搞啥AI啊……升级连接先吧
内容太多了，贴不上来。恕我直言啊，楼主你的理解有很大问题呢，关键字提取就是IR，楼主有没有读过IR的教材啊……现在都是auto ir好不好，谁还用人工啊？
关于information retrieval，这个能访问么？http://www.dcs.gla.ac.uk/Keith/Preface.html
要说不同，我贴一段来自GATE的吧：
Information Extraction is not Information Retrieval: Information Extraction differs from traditional techniques in that it does not recover from a collection a subset of documents which are hopefully relevant to a query, based on key-word searching (perhaps augmented by a thesaurus). Instead, the goal is to extract from the documents (which may be in a variety of languages) salient facts about prespecified types of events, entities or relationships. These facts are then usually entered automatically into a database, which may then be used to analyse the data for trends, to give a natural language summary, or simply to serve for on-line access.

楼主有可能是读了这个以后的感触吧，他们说的keyword search，可不是“人们还需要花费大量的经历去阅读Documents才能得到相关的信息”。

IE对于SW更有用，显然这点在text2onto的成功上已经被证明了，但这不是sw的意义所在。IE给sw提供了解析非结构化数据的技术，而不是sw反过来支持IE。

哇，版主说话好损阿。只是网络链接上不去，却这样损人。
如果没有IE，那么SW的优越性如何体现出来呢？如何觉得SW与传统的技术有优越性呢？感觉现在好多都是在空谈。
也许版主对sheffield的人有偏见，毕竟人家还是做了很多工作的。

--  作者：Ambrosia
--  发布时间：5/29/2006 12:05:00 PM

--
优越只是说说而已。如何体现出来要看你做的实验是什么，结果如何，楼主老问这个问题，我也是sw搞ir的，体现了优越性就可以让google靠边站马？你想别人的优越性都出来了，我们还有什么好研究的呢，呵呵。觉得国外的人口气都这样，不需很在意，呵呵

--  作者：MerryZhang
--  发布时间：5/29/2006 2:42:00 PM

--
没有办法啊，如果没有实用性并解决现有的问题，以及相对于老的技术具有优越性，就不会往上面投精力进行研究和开发了。

--  作者：Ambrosia
--  发布时间：5/30/2006 1:15:00 PM

--
o, 你是不是在写相关项目的proposal阿？如果是纵向的，就照着bl那篇文章把sw狂吹一番，不信要不到钱。有几个人有lee牛的？如果是横向的，那还真不好说阿，我总觉得sw不是这两年的事，呵呵

--  作者：iamwym
--  发布时间：6/2/2006 4:07:00 AM

--
我只是觉得aaai等于对于ai的意义，就如google对于现在的web。。。
sw的优越性可以肯定不是通过IE来体现的吧，非结构化数据的处理是非常有限的，text2onto的evaluation充分说明了这个问题
另外，gate是sheffield以前有的一个phd牛人做的，后来整个东西的开发都是不断在往核心上面贴膏药。不过他们对于多国语言的支持，确实还是做了很多工作，特地找中国人和阿拉伯人参与开发。

--  作者：MerryZhang
--  发布时间：6/2/2006 9:21:00 AM

--

以下是引用iamwym在2006-6-2 4:07:00的发言：
我只是觉得aaai等于对于ai的意义，就如google对于现在的web。。。
sw的优越性可以肯定不是通过IE来体现的吧，非结构化数据的处理是非常有限的，text2onto的evaluation充分说明了这个问题
另外，gate是sheffield以前有的一个phd牛人做的，后来整个东西的开发都是不断在往核心上面贴膏药。不过他们对于多国语言的支持，确实还是做了很多工作，特地找中国人和阿拉伯人参与开发。

多谢斑竹的回答。
有一个疑问，如果不用text2onto，GATE这样的工具，采用什么样的方法能够快速对网页进行Tagging呢？

--  作者：iamwym
--  发布时间：6/3/2006 12:36:00 AM

--
可以考虑基于wordnet做起，这已经比较底层了，princeton的东东做的还是很坚实。
实际上本质还是对文本进行处理，找到匹配，然后加tag，我个人觉得比较有意思的是加了tag以后怎么用。http://simile.mit.edu/piggy-bank/
我发现mit的硕士总能做些好东西出来，博士……做的东西只有他自己懂了。

--  作者：MerryZhang
--  发布时间：6/5/2006 12:50:00 PM

--

以下是引用iamwym在2006-6-3 0:36:00的发言：
可以考虑基于wordnet做起，这已经比较底层了，princeton的东东做的还是很坚实。
实际上本质还是对文本进行处理，找到匹配，然后加tag，我个人觉得比较有意思的是加了tag以后怎么用。http://simile.mit.edu/piggy-bank/
我发现mit的硕士总能做些好东西出来，博士……做的东西只有他自己懂了。

发现vivisimo的很不错搜索引擎，http://vivisimo.com.
如果输入搜索关键字Java，那么搜索引擎将会给出很多个与Java相关的主题，例如Tutorials (23);Java Technology (21);Open Source (20);Java.net (22);Java applets (18);Java programming (13);Games (10);FAQ (14);Java Developer (8);JavaScript (9)

但是没有出现关联的词，例如Java可能会和Coffee及Island相关的，这就需要构建一个知识库或者Wordnet来解决。从某种程度上来讲，Wordnet类似于TAP的DBs的功能。但是我觉得Wordnet是一个通用的词库，可能没有针对与某个领域的例如医学领域，它可能没有覆盖到，那么能否对Wordnet进行扩展呢，使其包括医学领域，另外同时如何对其进行解析并使用？

--  作者：iamwym
--  发布时间：6/5/2006 5:28:00 PM

--
我想应该可以扩展的吧，WORDNET应该可以自己定义扩展词库的。

另外我个人觉得，语义网的意义还是在知识管理多，现在运用到搜索引擎，可能目前还是不够成熟。GOOGLE可能会更多使用semantic desktop的东东，我也比较看好这块。当然不排除google开发出nb的search engine

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

93.750ms