以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  [原创]Information Extraction和Information Retrieve的区别  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=33094)


--  作者:MerryZhang
--  发布时间:5/26/2006 1:43:00 PM

--  [原创]Information Extraction和Information Retrieve的区别
Information Extraction(IE)和Information Retrieve(IR)虽然只差一个词,但是在Web和搜索中的意义和作用却是不一样的。
IR通常是输入一些关键词,从而搜索出相关的文档。而IE则是搜索出相关的结果。采用IR,通常人们还需要花费大量的经历去阅读Documents才能得到相关的信息,而IE则直接帮你找到想要的信息和答案了。
这我想也是SW的一个意义吧!



--  作者:iamwym
--  发布时间:5/26/2006 5:35:00 PM

--  
楼主读一下这个先。广义ai上,这两个是不怎么分的吧。
http://www.aaai.org/AITopics/html/info.html
--  作者:MerryZhang
--  发布时间:5/26/2006 11:15:00 PM

--  
以下是引用iamwym在2006-5-26 17:35:00的发言:
楼主读一下这个先。广义ai上,这两个是不怎么分的吧。
http://www.aaai.org/AITopics/html/info.html


打不开阿!还有,这并不是广义AI的定义阿。

--  作者:iamwym
--  发布时间:5/27/2006 12:53:00 AM

--  
不是吧,aaai的官方网站你打不开,汗,那还搞啥AI啊……升级连接先吧
内容太多了,贴不上来。恕我直言啊,楼主你的理解有很大问题呢,关键字提取就是IR,楼主有没有读过IR的教材啊……现在都是auto ir好不好,谁还用人工啊?
关于information retrieval,这个能访问么?http://www.dcs.gla.ac.uk/Keith/Preface.html
要说不同,我贴一段来自GATE的吧:
Information Extraction is not Information Retrieval: Information Extraction differs from traditional techniques in that it does not recover from a collection a subset of documents which are hopefully relevant to a query, based on key-word searching (perhaps augmented by a thesaurus). Instead, the goal is to extract from the documents (which may be in a variety of languages) salient facts about prespecified types of events, entities or relationships. These facts are then usually entered automatically into a database, which may then be used to analyse the data for trends, to give a natural language summary, or simply to serve for on-line access.

楼主有可能是读了这个以后的感触吧,他们说的keyword search,可不是“人们还需要花费大量的经历去阅读Documents才能得到相关的信息”。

IE对于SW更有用,显然这点在text2onto的成功上已经被证明了,但这不是sw的意义所在。IE给sw提供了解析非结构化数据的技术,而不是sw反过来支持IE。

说个题外话,sheffield的人,基本上是用锤子把这个IE概念强行建立起来的,呵呵,他们无论什么项目都要把GATE敲进去,还说是自然语言工程中的eclipse。有些英国人仗着英语是母语,确实有点皮厚。


--  作者:MerryZhang
--  发布时间:5/27/2006 9:07:00 PM

--  
多谢斑竹,也许我的理解的确有偏差。
--  作者:MerryZhang
--  发布时间:5/27/2006 9:12:00 PM

--  
以下是引用iamwym在2006-5-27 0:53:00的发言:
不是吧,aaai的官方网站你打不开,汗,那还搞啥AI啊……升级连接先吧
内容太多了,贴不上来。恕我直言啊,楼主你的理解有很大问题呢,关键字提取就是IR,楼主有没有读过IR的教材啊……现在都是auto ir好不好,谁还用人工啊?
关于information retrieval,这个能访问么?http://www.dcs.gla.ac.uk/Keith/Preface.html
要说不同,我贴一段来自GATE的吧:
Information Extraction is not Information Retrieval: Information Extraction differs from traditional techniques in that it does not recover from a collection a subset of documents which are hopefully relevant to a query, based on key-word searching (perhaps augmented by a thesaurus). Instead, the goal is to extract from the documents (which may be in a variety of languages) salient facts about prespecified types of events, entities or relationships. These facts are then usually entered automatically into a database, which may then be used to analyse the data for trends, to give a natural language summary, or simply to serve for on-line access.

楼主有可能是读了这个以后的感触吧,他们说的keyword search,可不是“人们还需要花费大量的经历去阅读Documents才能得到相关的信息”。

IE对于SW更有用,显然这点在text2onto的成功上已经被证明了,但这不是sw的意义所在。IE给sw提供了解析非结构化数据的技术,而不是sw反过来支持IE。

说个题外话,sheffield的人,基本上是用锤子把这个IE概念强行建立起来的,呵呵,他们无论什么项目都要把GATE敲进去,还说是自然语言工程中的eclipse。有些英国人仗着英语是母语,确实有点皮厚。



哇,版主说话好损阿。只是网络链接上不去,却这样损人。
如果没有IE,那么SW的优越性如何体现出来呢?如何觉得SW与传统的技术有优越性呢?感觉现在好多都是在空谈。
也许版主对sheffield的人有偏见,毕竟人家还是做了很多工作的。
--  作者:Ambrosia
--  发布时间:5/29/2006 12:05:00 PM

--  
优越只是说说而已。如何体现出来要看你做的实验是什么,结果如何,楼主老问这个问题,我也是sw搞ir的,体现了优越性就可以让google靠边站马?你想别人的优越性都出来了,我们还有什么好研究的呢,呵呵。觉得国外的人口气都这样,不需很在意,呵呵
--  作者:MerryZhang
--  发布时间:5/29/2006 2:42:00 PM

--  
没有办法啊,如果没有实用性并解决现有的问题,以及相对于老的技术具有优越性,就不会往上面投精力进行研究和开发了。
--  作者:Ambrosia
--  发布时间:5/30/2006 1:15:00 PM

--  
o, 你是不是在写相关项目的proposal阿?如果是纵向的,就照着bl那篇文章把sw狂吹一番,不信要不到钱。有几个人有lee牛的?如果是横向的,那还真不好说阿,我总觉得sw不是这两年的事,呵呵
--  作者:iamwym
--  发布时间:6/2/2006 4:07:00 AM

--  
我只是觉得aaai等于对于ai的意义,就如google对于现在的web。。。
sw的优越性可以肯定不是通过IE来体现的吧,非结构化数据的处理是非常有限的,text2onto的evaluation充分说明了这个问题
另外,gate是sheffield以前有的一个phd牛人做的,后来整个东西的开发都是不断在往核心上面贴膏药。不过他们对于多国语言的支持,确实还是做了很多工作,特地找中国人和阿拉伯人参与开发。
--  作者:MerryZhang
--  发布时间:6/2/2006 9:21:00 AM

--  
以下是引用iamwym在2006-6-2 4:07:00的发言:
我只是觉得aaai等于对于ai的意义,就如google对于现在的web。。。
sw的优越性可以肯定不是通过IE来体现的吧,非结构化数据的处理是非常有限的,text2onto的evaluation充分说明了这个问题
另外,gate是sheffield以前有的一个phd牛人做的,后来整个东西的开发都是不断在往核心上面贴膏药。不过他们对于多国语言的支持,确实还是做了很多工作,特地找中国人和阿拉伯人参与开发。


多谢斑竹的回答。
有一个疑问,如果不用text2onto,GATE这样的工具,采用什么样的方法能够快速对网页进行Tagging呢?
--  作者:iamwym
--  发布时间:6/3/2006 12:36:00 AM

--  
可以考虑基于wordnet做起,这已经比较底层了,princeton的东东做的还是很坚实。
实际上本质还是对文本进行处理,找到匹配,然后加tag,我个人觉得比较有意思的是加了tag以后怎么用。http://simile.mit.edu/piggy-bank/
我发现mit的硕士总能做些好东西出来,博士……做的东西只有他自己懂了。
--  作者:MerryZhang
--  发布时间:6/5/2006 12:50:00 PM

--  
以下是引用iamwym在2006-6-3 0:36:00的发言:
可以考虑基于wordnet做起,这已经比较底层了,princeton的东东做的还是很坚实。
实际上本质还是对文本进行处理,找到匹配,然后加tag,我个人觉得比较有意思的是加了tag以后怎么用。http://simile.mit.edu/piggy-bank/
我发现mit的硕士总能做些好东西出来,博士……做的东西只有他自己懂了。


发现vivisimo的很不错搜索引擎,http://vivisimo.com.
如果输入搜索关键字Java,那么搜索引擎将会给出很多个与Java相关的主题,例如Tutorials (23);Java Technology (21);Open Source (20);Java.net (22);Java applets (18);Java programming (13);Games (10);FAQ (14);Java Developer (8);JavaScript (9)

但是没有出现关联的词,例如Java可能会和Coffee及Island相关的,这就需要构建一个知识库或者Wordnet来解决。从某种程度上来讲,Wordnet类似于TAP的DBs的功能。但是我觉得Wordnet是一个通用的词库,可能没有针对与某个领域的例如医学领域,它可能没有覆盖到,那么能否对Wordnet进行扩展呢,使其包括医学领域,另外同时如何对其进行解析并使用?


--  作者:iamwym
--  发布时间:6/5/2006 5:28:00 PM

--  
我想应该可以扩展的吧,WORDNET应该可以自己定义扩展词库的。

另外我个人觉得,语义网的意义还是在知识管理多,现在运用到搜索引擎,可能目前还是不够成熟。GOOGLE可能会更多使用semantic desktop的东东,我也比较看好这块。当然不排除google开发出nb的search engine


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
93.750ms