W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL--显示贴子

以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  使用JENA开发过管理系统的疑问  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=84904)

--  作者：hanzaihua
--  发布时间：5/24/2010 5:04:00 PM

--  使用JENA开发过管理系统的疑问
各位大大：
不知道谁使用jena开发过管理系统，能够处理的数据量大概有多少。
我们有一个系统，模型变化较快，要管理的内容很多，目前采用定制表的方式开发，后续我在考虑是否可采用owl或rdf来处理数据，jena实现，但又怕数据量非常大的情况下（10万条以上），查询效率出现大的问题，请教各位有此经历的朋友。

--  作者：aa1ss2dd3
--  发布时间：5/24/2010 5:32:00 PM

--
首先你得明白为什么要用 owl或rdf ?

大型的本体如:Go ontology 没用过,wordnet的RDF版本我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说

--  作者：aa1ss2dd3
--  发布时间：5/24/2010 5:34:00 PM

--

以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言：
首先你得明白为什么要用 owl或rdf ?

大型的本体如:Go ontology 没用过,wordnet的RDF版本我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说

我用jena做过查询推理

--  作者：hanzaihua
--  发布时间：5/24/2010 5:42:00 PM

--
aa1ss2dd3,如何联系你，我邮箱hanzaihua@gmail.com

非常感谢你留言，采用owl主要是想应对数据模型的变化，因为jena在实现上，将所有本体对象、数据均采用资源描述的方式存储，在表的数量上仅控制在7张，这是吸引我的。因为我的模型目前就有20个左右，每个模型均需要代码去管理，扩展性不好，后续如果模型再增加的话，又得建很多表，得写很多代码去管理。
但采用本体的话，所有数据均存在一张表中，且必须采用sparql去查询，sql的优势体现不出来，我担心数据量大的情况下出现内存溢出，速度奇慢的情况。不知道是否谁有这方面的经验。

--  作者：aa1ss2dd3
--  发布时间：5/25/2010 7:27:00 AM

--
这是我的想法，仅供参考：
你可以做个系统原型试一试，找一个大本体（这个在网上很容易找的），然后存储到数据库。
在用sparql查询一下。

浙江大学有一篇博士论文，好像叫“面向大规模本体重用子本体模型...”。你可以看看

--  作者：laotao
--  发布时间：5/25/2010 8:49:00 AM

--
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的？

我试过2万多个三元组的简单SPARQL查询，内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……

以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言：
首先你得明白为什么要用 owl或rdf ?
大型的本体如:Go ontology 没用过,wordnet的RDF版本我用jena做过查询(在一台HP DL580) 要个把小时才出结果.
用RacerPro 或许好些,没用过,不能瞎说

--  作者：aa1ss2dd3
--  发布时间：5/25/2010 9:10:00 AM

--

以下是引用laotao在2010-5-25 8:49:00的发言：
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的？

我试过2万多个三元组的简单SPARQL查询，内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……
[quote]以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言：
首先你得明白为什么要用 owl或rdf ?

大型的本体如:Go ontology 没用过,wordnet的RDF版本我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说

[/quote]

呵呵,我在这里漏了几个字.在二楼我补上去了.
我没有做过的事情不能瞎说

--  作者：hanzaihua
--  发布时间：5/25/2010 6:32:00 PM

--

以下是引用laotao在2010-5-25 8:49:00的发言：
是直接将RDF文件导入内存后查询的还是导入到数据库建立索引后查的？

我试过2万多个三元组的简单SPARQL查询，内存中需要15s, 利用SDB导入到MySQL数据库后查询只需要几毫秒。

最近有个会议好像要征集十亿元组的应用……
[quote]以下是引用aa1ss2dd3在2010-5-24 17:32:00的发言：
首先你得明白为什么要用 owl或rdf ?

大型的本体如:Go ontology 没用过,wordnet的RDF版本我用jena做过查询(在一台HP DL580) 要个把小时才出结果.

用RacerPro 或许好些,没用过,不能瞎说

[/quote]

laotao能详细介绍下这方面的经验吗

--  作者：laotao
--  发布时间：5/26/2010 9:18:00 AM

--
http://openjena.org/wiki/SDB/Query_performance
一个19.5 million triples的测试报告

--  作者：hanzaihua
--  发布时间：5/27/2010 12:01:00 AM

--

以下是引用laotao在2010-5-26 9:18:00的发言：
http://openjena.org/wiki/SDB/Query_performance
一个19.5 million triples的测试报告

谢谢！看到了测试数据，但从owl来看，本体不大，可能还不能很好的体现出来。

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

78.125ms