以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  使用JENA开发过管理系统的疑问  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=84904)


--  作者:hanzaihua
--  发布时间:5/24/2010 5:04:00 PM

--  使用JENA开发过管理系统的疑问
各位大大:
不知道谁使用jena开发过管理系统,能够处理的数据量大概有多少。
我们有一个系统,模型变化较快,要管理的内容很多,目前采用定制表的方式开发,后续我在考虑是否可采用owl或rdf来处理数据,jena实现,但又怕数据量非常大的情况下(10万条以上),查询效率出现大的问题,请教各位有此经历的朋友。
--  作者:aa1ss2dd3
--  发布时间:5/24/2010 5:32:00 PM

--  
首先你得明白为什么要用 owl或rdf ?

大型的本体 如:Go ontology 没用过,wordnet的RDF版本 我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说



--  作者:aa1ss2dd3
--  发布时间:5/24/2010 5:34:00 PM

--  
以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言:
首先你得明白为什么要用 owl或rdf ?

大型的本体 如:Go ontology 没用过,wordnet的RDF版本 我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说




我用jena做过查询推理


--  作者:hanzaihua
--  发布时间:5/24/2010 5:42:00 PM

--  
aa1ss2dd3,如何联系你,我邮箱hanzaihua@gmail.com

非常感谢你留言,采用owl主要是想应对数据模型的变化,因为jena在实现上,将所有本体对象、数据均采用资源描述的方式存储,在表的数量上仅控制在7张,这是吸引我的。因为我的模型目前就有20个左右,每个模型均需要代码去管理,扩展性不好,后续如果模型再增加的话,又得建很多表,得写很多代码去管理。
但采用本体的话,所有数据均存在一张表中,且必须采用sparql去查询,sql的优势体现不出来,我担心数据量大的情况下出现内存溢出,速度奇慢的情况。不知道是否谁有这方面的经验。


--  作者:aa1ss2dd3
--  发布时间:5/25/2010 7:27:00 AM

--  
这是我的想法,仅供参考:
你可以做个系统原型试一试,找一个大本体(这个在网上很容易找的),然后存储到数据库。
在用sparql查询一下。

浙江大学有一篇博士论文,好像叫“面向大规模本体重用子本体模型...”。你可以看看


--  作者:laotao
--  发布时间:5/25/2010 8:49:00 AM

--  
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的?

我试过2万多个三元组的简单SPARQL查询,内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……
以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言:
首先你得明白为什么要用 owl或rdf ?

大型的本体 如:Go ontology 没用过,wordnet的RDF版本 我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说





--  作者:aa1ss2dd3
--  发布时间:5/25/2010 9:10:00 AM

--  
以下是引用laotao在2010-5-25 8:49:00的发言:
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的?

我试过2万多个三元组的简单SPARQL查询,内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……
[quote]以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言:
首先你得明白为什么要用 owl或rdf ?

  大型的本体 如:Go ontology 没用过,wordnet的RDF版本 我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

  用RacerPro 或许好些,没用过,不能瞎说

  
  
[/quote]


呵呵,我在这里漏了几个字.在二楼我补上去了.
我没有做过的事情不能瞎说


--  作者:hanzaihua
--  发布时间:5/25/2010 6:32:00 PM

--  
以下是引用laotao在2010-5-25 8:49:00的发言:
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的?

我试过2万多个三元组的简单SPARQL查询,内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……
[quote]以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言:
首先你得明白为什么要用 owl或rdf ?

  大型的本体 如:Go ontology 没用过,wordnet的RDF版本 我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

  用RacerPro 或许好些,没用过,不能瞎说

  
  
[/quote]



laotao能详细介绍下这方面的经验吗
--  作者:laotao
--  发布时间:5/26/2010 9:18:00 AM

--  
http://openjena.org/wiki/SDB/Query_performance
一个19.5 million triples的测试报告
--  作者:hanzaihua
--  发布时间:5/27/2010 12:01:00 AM

--  
以下是引用laotao在2010-5-26 9:18:00的发言:
http://openjena.org/wiki/SDB/Query_performance
一个19.5 million triples的测试报告

谢谢!看到了测试数据,但从owl来看,本体不大,可能还不能很好的体现出来。


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
78.125ms