以文本方式查看主题

-  W3CHINA.ORG讨论区 - 语义网·描述逻辑·本体·RDF·OWL  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  OntoSCORM:一个基于领域本体的知识搜索引擎  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=33180)


--  作者:addcplus
--  发布时间:5/27/2006 9:37:00 PM

--  OntoSCORM:一个基于领域本体的知识搜索引擎
大家好!
     前面在语义网QQ群上聊到本人所做的毕业论文——一个基于本体的搜索引擎系统,有的朋友比较感兴趣,因此我把论文的关键部分整理出来抛砖引玉,供大家参考。
    基于本体的语义搜索其实有多种模式,我论文中的搜索系统仍然没有脱离传统信息检索的框架。其实还有一些新的模式值得探索,比如华东师大计算机系的贝克(QQ名)博士的项目则类似于一种基于本体的问答系统。当然,还有其他语义搜索产品形态,这都需要继续探索。
    本文实验系统均是基于开源开发包实现:Lucene,Jena,中科院的ICTCLAS等等。因此,任何一位朋友都可以基于这些工具搭建起来类似的系统。



--  作者:jpz6311whu
--  发布时间:5/27/2006 10:51:00 PM

--  

此主题相关图片如下:
按此在新窗口浏览图片
有一个疑问:
问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
请问那么到底用了ICTCLAS没有,用在哪个地方?
另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?

--  作者:addcplus
--  发布时间:5/28/2006 8:34:00 AM

--  
这位朋友的问题确实是使用Lucene时要注意的问题。
应该说,对Analyzer的一致性要求对任何信息检索系统都是一样,比如说,“中华人民共和国”在索引的时候切分为“中华人民共和国”,但是用户在检索时,被另一个Analyzer切分为“中华 华人 人民 民共 共和 和国”,那么索引词为“中华人民共和国”的文档是肯定检索不出来的。
我建索引的时候都是用的ICTCLAS,我在实验中发现ICTCLAS不太稳定(这对query接口来说是一个无法容忍的错误),所以query端一度采用CKJAnalyzer的bigram分词方式(这种方式确实非常影响检索效果,但确属无奈)。虽说ICTCLAS不太稳定,但是大多数时候还是可以的嘛。因此,我实际上两种方式都在用,而且只要ICTCLAS不出问题,我query接口还是用ICTCLAS。而我这一点没有在论文中作说明,确为不当。


[此贴子已经被作者于2006-5-28 9:57:04编辑过]

--  作者:jpz6311whu
--  发布时间:5/28/2006 10:05:00 AM

--  
两种方式都用?那在程序设计的时候怎么写呢?
传给Index和Query的Analyzer应该只有一个,用if语句判断,try,catch吗?
ICTCLAS如果出错的话,应该是java虚拟机以外的win32错误,用try,catch是不能捕获的,而且如果出错,程序马上立刻错误结束,比如以下这个就是我们在使用它的时候的报错:

hs_err_pid1204.log
————————————————————
#
# An unexpected error has been detected by HotSpot Virtual Machine:
#
#  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x100024a1, pid=1204, tid=268
#
# Java VM: Java HotSpot(TM) Client VM (1.5.0_06-b05 mixed mode, sharing)
# Problematic frame:
# C  [slice.dll+0x24a1]
#

---------------  T H R E A D  ---------------

Current thread (0x00823890):  JavaThread "main" [_thread_in_native, id=268]

siginfo: ExceptionCode=0xc0000005, reading address 0x1ea4a0a8

Registers:
EAX=0x03591e58, EBX=0x26ce96e8, ECX=0x003e6373, EDX=0x1b4b8250
ESP=0x0006f780, EBP=0x0006f83c, ESI=0x26ce96e8, EDI=0x0006f83c
EIP=0x100024a1, EFLAGS=0x00010202

Top of Stack: (sp=0x0006f780)
0x0006f780:   0006f8d8 26ce96e8 26ce96e8 cccccccc
0x0006f790:   cccccccc cccccccc cccccccc cccccccc
0x0006f7a0:   cccccccc cccccccc cccccccc cccccccc
0x0006f7b0:   cccccccc cccccccc cccccccc cccccccc
0x0006f7c0:   cccccccc cccccccc cccccccc cc007377
0x0006f7d0:   6372733c 6c6c413e 6f666e69 74616d72
0x0006f7e0:   636e6f69 61746e6f 64656e69 65726568
0x0006f7f0:   73696e69 70656874 65706f72 6f797472

Instructions: (pc=0x100024a1)
0x10002491:   c7 45 f8 01 00 00 00 8b 55 f8 6b d2 70 8b 45 08
0x100024a1:   0f be 0c 10 85 c9 0f 84 e8 01 00 00 8b 55 f8 6b


Stack: [0x00030000,0x00070000),  sp=0x0006f780,  free space=253k
Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)
C  [slice.dll+0x24a1]
C  [slice.dll+0x3f4c]
C  [slice.dll+0x176f]
C  [slice.dll+0x19ad]
j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;II)Ljava/lang/String;+0
j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;IIZZ)Ljava/lang/String;+130
j  cn.edu.whu.sim.ontolt.util.PDFConverter.main([Ljava/lang/String;)V+38
v  ~StubRoutines::call_stub
V  [jvm.dll+0x845a9]
V  [jvm.dll+0xd9317]
V  [jvm.dll+0x8447a]
V  [jvm.dll+0x8b44a]
C  [javaw.exe+0x14c5]
C  [javaw.exe+0x3151]
C  [kernel32.dll+0x16d4f]

Java frames: (J=compiled Java code, j=interpreted, Vv=VM code)
j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;II)Ljava/lang/String;+0
j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;IIZZ)Ljava/lang/String;+130
j  cn.edu.whu.sim.ontolt.util.PDFConverter.main([Ljava/lang/String;)V+38
v  ~StubRoutines::call_stub

---------------  P R O C E S S  ---------------

Java Threads: ( => current thread )
  0x00831e70 JavaThread "Low Memory Detector" daemon [_thread_blocked, id=556]
  0x0082f7f0 JavaThread "CompilerThread0" daemon [_thread_blocked, id=2164]
  0x0082e650 JavaThread "Signal Dispatcher" daemon [_thread_blocked, id=552]
  0x0082d9d0 JavaThread "Finalizer" daemon [_thread_blocked, id=3976]
  0x0082c750 JavaThread "Reference Handler" daemon [_thread_blocked, id=276]
=>0x00823890 JavaThread "main" [_thread_in_native, id=268]

Other Threads:
  0x0082b9f0 VMThread [id=3968]
  0x00832b50 WatcherThread [id=320]

VM state:not at safepoint (normal execution)

VM Mutex/Monitor currently owned by a thread: None

Heap
def new generation   total 640K, used 84K [0x22bd0000, 0x22c80000, 0x230b0000)
  eden space 576K,   3% used [0x22bd0000, 0x22bd5040, 0x22c60000)
  from space 64K,  99% used [0x22c70000, 0x22c7fff8, 0x22c80000)
  to   space 64K,   0% used [0x22c60000, 0x22c60000, 0x22c70000)
tenured generation   total 7716K, used 4900K [0x230b0000, 0x23839000, 0x26bd0000)
   the space 7716K,  63% used [0x230b0000, 0x23579058, 0x23579200, 0x23839000)
compacting perm gen  total 8192K, used 1161K [0x26bd0000, 0x273d0000, 0x2abd0000)
   the space 8192K,  14% used [0x26bd0000, 0x26cf2558, 0x26cf2600, 0x273d0000)
    ro space 8192K,  63% used [0x2abd0000, 0x2b0db178, 0x2b0db200, 0x2b3d0000)
    rw space 12288K,  46% used [0x2b3d0000, 0x2b969fa8, 0x2b96a000, 0x2bfd0000)

Dynamic libraries:
0x00400000 - 0x0040c000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\javaw.exe
0x7c920000 - 0x7c9b4000  C:\WINDOWS\system32\ntdll.dll
0x7c800000 - 0x7c91c000  C:\WINDOWS\system32\kernel32.dll
0x77da0000 - 0x77e49000  C:\WINDOWS\system32\ADVAPI32.dll
0x77e50000 - 0x77ee1000  C:\WINDOWS\system32\RPCRT4.dll
0x77d10000 - 0x77d9f000  C:\WINDOWS\system32\USER32.dll
0x77ef0000 - 0x77f37000  C:\WINDOWS\system32\GDI32.dll
0x77be0000 - 0x77c38000  C:\WINDOWS\system32\MSVCRT.dll
0x76300000 - 0x7631d000  C:\WINDOWS\system32\IMM32.DLL
0x62c20000 - 0x62c29000  C:\WINDOWS\system32\LPK.DLL
0x73fa0000 - 0x7400b000  C:\WINDOWS\system32\USP10.dll
0x6d670000 - 0x6d804000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\client\jvm.dll
0x76b10000 - 0x76b3a000  C:\WINDOWS\system32\WINMM.dll
0x6d280000 - 0x6d288000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\hpi.dll
0x76bc0000 - 0x76bcb000  C:\WINDOWS\system32\PSAPI.DLL
0x6d640000 - 0x6d64c000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\verify.dll
0x6d300000 - 0x6d31d000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\java.dll
0x6d660000 - 0x6d66f000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\zip.dll
0x10000000 - 0x1022e000  D:\JavaProgramFiles\Java\jdk1_5_0_06\slice\slice.dll
0x5d170000 - 0x5d207000  C:\WINDOWS\system32\COMCTL32.dll
0x72f70000 - 0x72f96000  C:\WINDOWS\system32\WINSPOOL.DRV
0x76320000 - 0x76367000  C:\WINDOWS\system32\comdlg32.dll
0x77f40000 - 0x77fb6000  C:\WINDOWS\system32\SHLWAPI.dll
0x7d590000 - 0x7dd82000  C:\WINDOWS\system32\SHELL32.dll
0x77180000 - 0x77282000  C:\WINDOWS\WinSxS\x86_Microsoft.Windows.Common-Controls_6595b64144ccf1df_6.0.2600.2180_x-ww_a84f1ff9\comctl32.dll

VM Arguments:
java_command: cn.edu.whu.sim.ontolt.util.PDFConverter
Launcher Type: SUN_STANDARD

Environment Variables:
JAVA_HOME=D:\JavaProgramFiles\Java\jdk1_5_0_06
PATH=C:\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32\Wbem;D:\JavaProgramFiles\Java\jdk1_5_0_06\slice;C:\Program Files\Microsoft SQL Server\80\Tools\BINN
USERNAME=jpz6311whu
OS=Windows_NT
PROCESSOR_IDENTIFIER=x86 Family 6 Model 9 Stepping 5, GenuineIntel

---------------  S Y S T E M  ---------------

OS: Windows XP Build 2600 Service Pack 2

CPU:total 1 family 6, cmov, cx8, fxsr, mmx, sse, sse2

Memory: 4k page, physical 515440k(41860k free), swap 1009016k(579960k free)

vm_info: Java HotSpot(TM) Client VM (1.5.0_06-b05) for windows-x86, built on Nov 10 2005 11:12:14 by "java_re" with MS VC++ 6.0

————————————————————


--  作者:addcplus
--  发布时间:5/28/2006 11:18:00 AM

--  
可能是俺没有表达清楚,我说的两者都用并不是同时来用,或者根据当前状态来判断用哪一个。我只是说有有一段时间用ICTCLAS(这个时候把CJKAnalyzer注释掉),或者有一段时间用CJKAnalyzer(这时把ICTCLAS注释掉)。比如这段时间我发现ICTCLAS不怎么出错,所以就坚持用它。说不定我哪天不爽了,我就用CJKAnalyzer,当然这肯定会影响检索效果的,最好还是要保持切词工具的一致性。
另外强调的是,保持切词工具的一致性是检索系统的基本要求,如果不一致的话,检索本身还是没有问题的,只是说不一定能检索出正确的结果。
索引和检索是两个不同的模块,当然可以指定不同的切词器了。
--  作者:fengguier
--  发布时间:5/30/2006 12:31:00 AM

--  
请问那位做“一种基于本体的问答系统”的博士QQ是多少啊,我也想做这一块。谢谢。
--  作者:MerryZhang
--  发布时间:5/30/2006 9:23:00 AM

--  
除了Lucene还有其它的全文搜索引擎吗?
--  作者:sanfan1981
--  发布时间:5/30/2006 11:12:00 AM

--  
来点实际的东西
--  作者:fengguier
--  发布时间:5/30/2006 11:38:00 AM

--  
您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!
--  作者:addcplus
--  发布时间:5/30/2006 7:26:00 PM

--  
以下是引用fengguier在2006-5-30 0:31:00的发言:
请问那位做“一种基于本体的问答系统”的博士QQ是多少啊,我也想做这一块。谢谢。

他在论坛上得ID是 backby,你联系他吧


--  作者:addcplus
--  发布时间:5/30/2006 7:29:00 PM

--  
以下是引用fengguier在2006-5-30 11:38:00的发言:
您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!

可以,你用email给我联系吧


--  作者:addcplus
--  发布时间:5/30/2006 7:36:00 PM

--  
以下是引用MerryZhang在2006-5-30 9:23:00的发言:
除了Lucene还有其它的全文搜索引擎吗?

www.sourceforge.org  上可以搜索到吧,不光有开源全文索引工具,开源spdier也有


--  作者:csdncannon
--  发布时间:5/30/2006 7:51:00 PM

--  
我自己做了一个用ICTCLAS做分词的汉语Analyzer,建完索引后,大多数词在查询时没有问题,但是某几个词在查询时却是错的。比如我对三个不同的句子建了索引,其中有一句是“上海交通大学微电子学院法兰西”,查询“法兰西”这个词的时候,其他两个句子也在结果里面。

然后我找到了这个工具:http://www.getopt.org/luke/。它可以查看索引文件里Term和Document的映射关系,结果我发现Term“法兰西”对应了三个Document(我把上面所说的三个句子作为三个Document建索引)。

最后我用的WebLucene的两字分词,也就是lz所说的CJKAnalyzer。我个人感觉CJKAnalyzer建的索引文件太大,但是它支持的查询更多,比如对“中华人民共和国”建索引,查询的时候可以查“中华”,而如果用ICTCLAS分词建索引的话,这种查询是不支持的。

请问lz所说的不稳定是什么情况?有没有碰到过和我同样的情况?
以下是引用jpz6311whu在2006-5-27 22:51:00的发言:
有一个疑问:
问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
请问那么到底用了ICTCLAS没有,用在哪个地方?
另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?



--  作者:csdncannon
--  发布时间:5/30/2006 7:57:00 PM

--  
为什么不选择Lucene呢?
以下是引用MerryZhang在2006-5-30 9:23:00的发言:
除了Lucene还有其它的全文搜索引擎吗?


--  作者:jpz6311whu
--  发布时间:5/30/2006 8:22:00 PM

--  
以下是引用csdncannon在2006-5-30 19:51:00的发言:
我自己做了一个用ICTCLAS做分词的汉语Analyzer,建完索引后,大多数词在查询时没有问题,但是某几个词在查询时却是错的。比如我对三个不同的句子建了索引,其中有一句是“上海交通大学微电子学院法兰西”,查询“法兰西”这个词的时候,其他两个句子也在结果里面。

然后我找到了这个工具:http://www.getopt.org/luke/。它可以查看索引文件里Term和Document的映射关系,结果我发现Term“法兰西”对应了三个Document(我把上面所说的三个句子作为三个Document建索引)。

最后我用的WebLucene的两字分词,也就是lz所说的CJKAnalyzer。我个人感觉CJKAnalyzer建的索引文件太大,但是它支持的查询更多,比如对“中华人民共和国”建索引,查询的时候可以查“中华”,而如果用ICTCLAS分词建索引的话,这种查询是不支持的。

请问lz所说的不稳定是什么情况?有没有碰到过和我同样的情况?
[quote]以下是引用jpz6311whu在2006-5-27 22:51:00的发言:
  有一个疑问:
  问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
  但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
  请问那么到底用了ICTCLAS没有,用在哪个地方?
  另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?
  
[/quote]



您所说的这个“法兰西”的问题,我觉得是Analyzer设计的问题,而不是ICTCLAS分词的问题。
中科院现在提供免费使用的ICTCLAS是2002年年的初步成果,有不少bug,要想修改的话可以改改c++源代码重新编译成dll,再用jni调用。后来他们提供的商业版本应该会健壮得多,但是卖得也是很贵的说。如果免费的给大家用得爽了,谁还去买商业版本的呢?
--  作者:tjw228
--  发布时间:5/30/2006 9:59:00 PM

--  
请发我一份吧,我的email:
tjw@zjbti.net.cn
--  作者:csdncannon
--  发布时间:5/30/2006 10:21:00 PM

--  
你的意思是说我的Analyzer写的有问题?

但是我用我的Analyzer进行分词以后,我把那个句子的tokenStream打印出来了,“法兰西”确实是分成一个词的。而用Luke看到索引文件中“法兰西”确实是作为一个Term的,只是它的对于另外两个Document的IDF(Inverse Document Frequency)值算错了,其他的值都没问题,导致算出来的相关度值过大,所以另外两个句子也包含在结果集里面了。

希望您能说得具体些,我苦于找不到问题的所在啊

以下是引用jpz6311whu在2006-5-30 20:22:00的发言:
您所说的这个“法兰西”的问题,我觉得是Analyzer设计的问题,而不是ICTCLAS分词的问题。
中科院现在提供免费使用的ICTCLAS是2002年年的初步成果,有不少bug,要想修改的话可以改改c++源代码重新编译成dll,再用jni调用。后来他们提供的商业版本应该会健壮得多,但是卖得也是很贵的说。如果免费的给大家用得爽了,谁还去买商业版本的呢?


--  作者:jpz6311whu
--  发布时间:5/30/2006 10:37:00 PM

--  
我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。
--  作者:csdncannon
--  发布时间:5/31/2006 11:04:00 AM

--  
理解

我的代码在别处,机器关了,没法拿到代码

一会就帖上来

以下是引用jpz6311whu在2006-5-30 22:37:00的发言:
我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。


--  作者:csdncannon
--  发布时间:5/31/2006 11:23:00 AM

--  
主要代码如下:
//添加Document
doc1.add( Field.Text("content", "巴拿马和美国都是国家地区汉族是一个民族") ) ;
doc2.add( Field.Text("content", "上海民族交通大学微电子学院陈进法兰西") ) ;
doc3.add( Field.Text("content", "在中华人民共和国") ) ;

//写Document
IndexWriter writer = new IndexWriter("index", new ChineseAnalyzer(), true);
writer.addDocument( doc1 ) ;
writer.addDocument( doc2 ) ;
writer.addDocument( doc3 ) ;
writer.addDocument( doc4 ) ;
writer.addDocument( doc5 ) ;
writer.optimize() ;
writer.close() ;

//检索
Searcher searcher = new IndexSearcher("index");
Analyzer analyzer = new ChineseAnalyzer();
Query q = QueryParser.parse("法兰西","content", analyzer );

//输出结果
System.out.println( hits.length() ) ;
while(++i < hits.length() )
    {
     System.out.println( hits.doc(i).get("content")) ;
          
    }

查询“法兰西”时结果:
2
上海民族交通大学微电子学院陈进法兰西
在中华人民共和国

“法兰西”在“在中华人民共和国”中对应的IDF(图片另外打开会清楚些)

此主题相关图片如下:
按此在新窗口浏览图片

Term的排名

此主题相关图片如下:
按此在新窗口浏览图片


--  作者:csdncannon
--  发布时间:5/31/2006 4:51:00 PM

--  
public class ChineseAnalyzer extends Analyzer {
 
 private Reader input ;
 private static final int MAX_WORD_LEN = 255;
 private static final int IO_BUFFER_SIZE = 1024;
 private final char[] buffer = new char[MAX_WORD_LEN];
 private final char[] ioBuffer = new char[IO_BUFFER_SIZE];
 public TokenStream tokenStream(String fieldName, Reader reader) {

    input = reader ;
    try {
  int dataRead = input.read(ioBuffer);
 } catch (IOException e) {
  e.printStackTrace();
 }
 
    final String chiStr = new String(ioBuffer) ;
 return new TokenStream()
 {
  Sentence sentence = SplitWord.splitWord( chiStr ) ;
  int wordNum = sentence.totalWords() ;
  int i = 0 ;
  int start = 0 ;
  int end ;
  int pos = 0 ;
  public Token next()
  {
   if( i  == wordNum )
    return null;
   else
   {
    Word word = sentence.getWord(i) ;
    String content = word.getWord() ;
    start = pos ;
    end = start + content.length() ;
    pos = end + 1 ;
    
    i++ ;
    return new Token( content ,
                                                                                            start ,end) ;
      
   }     
  }
 } ;
 }
 
 public static void main (String[] args)
 {
  Analyzer analyzer = new ChineseAnalyzer() ;
     TokenStream stream1 =
         analyzer.tokenStream("contents", new StringReader(
           "巴拿马和美国都是国家地区,汉族是一个民族"));
     TokenStream stream2 =
         analyzer.tokenStream("contents", new StringReader(
           "上海民族交通大学微电子学院陈进法兰西"));
     
     ArrayList tokenList1 = new ArrayList();
     while (true) {
       Token token = null ;
  try {
   token = stream1.next();
  } catch (IOException e) {
   e.printStackTrace();
  }
       if (token == null) break;

       tokenList1.add(token);
     }
     
     ArrayList tokenList2 = new ArrayList();
     while (true) {
       Token token = null ;
  try {
   token = stream2.next();
  } catch (IOException e) {  
   e.printStackTrace();
  }
       if (token == null) break;

       tokenList2.add(token);
     }
     
     for (int i = 0; i < tokenList1.size(); i++) {
         Token token = (Token) tokenList1.get(i);

         System.out.println("[" + token.termText() + "] "
           + ": " + token.startOffset + " => "
                                                + token.endOffset) ;
     }
     
     for (int i = 0; i < tokenList2.size(); i++) {
         Token token = (Token) tokenList2.get(i);

         System.out.println("[" + token.termText() + "] "
           + ": " + token.startOffset + " => "  
                                                + token.endOffset) ;
     }
 }
}

上面那段代码的结果:
[巴拿马] : 0 => 3
[和] : 4 => 5
[美国] : 6 => 8
[都] : 9 => 10
[是] : 11 => 12
[国家] : 13 => 15
[地区] : 16 => 18
[,] : 19 => 20
[汉族] : 21 => 23
[是] : 24 => 25
[一个] : 26 => 28
[民族] : 29 => 31
[上海] : 0 => 2
[民族] : 3 => 5
[交通] : 6 => 8
[大学] : 9 => 11
[微电子] : 12 => 15
[学院] : 16 => 18
[陈] : 19 => 20
[进] : 21 => 22
[法兰西] : 23 => 26
[民族] : 27 => 29

第一个句子里的"民族"竟然出现在了第二个句子的tokenStream里面,这就是lz所说的ICTCLAS不稳定吗?


--  作者:csdncannon
--  发布时间:5/31/2006 4:57:00 PM

--  
从上面那段代码看来,是因为ICTCLAS分词出来的结果有错误才导致了IDF算错了

以下是引用jpz6311whu在2006-5-30 22:37:00的发言:
我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。


--  作者:jpz6311whu
--  发布时间:6/3/2006 8:43:00 PM

--  
int dataRead = input.read(ioBuffer);
第一次ioBuffer读了之后没有清空,所以最后那个“民族”还是保留到了到第二次。

最简单的改法:
  Analyzer analyzer1 = new ChineseAnalyzer() ;
  Analyzer analyzer2 = new ChineseAnalyzer() ;
     TokenStream stream1 =
         analyzer1.tokenStream("contents", new StringReader(
           "巴拿马和美国都是国家地区,汉族是一个民族"));
     TokenStream stream2 =
         analyzer2.tokenStream("contents", new StringReader(
           "上海民族交通大学微电子学院陈进法兰西"));



--  作者:wyf_aaa
--  发布时间:6/9/2006 3:36:00 PM

--  
请教楼主:哪里能找到ICTCLAS的dll动态连接库?我下载了源代码,只能生成exe文件,不能生成dll文件。
--  作者:jpz6311whu
--  发布时间:6/9/2006 10:09:00 PM

--  
以下是引用wyf_aaa在2006-6-9 15:36:00的发言:
请教楼主:哪里能找到ICTCLAS的dll动态连接库?我下载了源代码,只能生成exe文件,不能生成dll文件。


你可以用c++的ide新建dll工程,然后编译之后就生成dll,不要新建application工程。
--  作者:wyf_aaa
--  发布时间:6/10/2006 8:12:00 AM

--  
ICTCLAS下载以后已经是一个完整的工程了,新建工程后怎么能把已有工程导入新的工程呢?
--  作者:guchusheng
--  发布时间:6/13/2006 5:33:00 PM

--  
您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!
liujg2004@126.com thanks!!!!!!!!!!!!!!!!!!!
--  作者:tristones
--  发布时间:6/15/2006 2:07:00 PM

--  
用protege构建的“教育技术”领域的本体能给我一份吗?
非常感谢!
stonecl@gmail.com
--  作者:ly2122003
--  发布时间:6/15/2006 4:17:00 PM

--  
“教育技术”领域的本体也给我一份吧.
非常感谢!pyscr2003@yahoo.com.cn
--  作者:liweijiexsf
--  发布时间:6/29/2006 10:03:00 AM

--  
"教育领域的本体"能给我一份吗?
很需要呀,非常感谢!
liweijiexsf@yahoo.com.cn
--  作者:qiyan197966
--  发布时间:8/2/2006 1:29:00 PM

--  
用protege构建的“教育技术”领域的本体能发表到贴子中共享吗?
我也很需要啊,能否发给我一份呀?急!!!!!
qiyanaini@163.com
--  作者:qiyan197966
--  发布时间:8/2/2006 1:47:00 PM

--  
用protege构建的“教育技术”领域的本体能给我一份吗?
非常感谢!
我的email 是  qiyanaini@163.com
你说可以用email和你联系,可是我不知道你的地址呀,你的资料里没有啊.
希望你能和我联系,真是太感谢你了.
--  作者:liuhg
--  发布时间:8/10/2006 3:04:00 PM

--  
我也要一份“教育技术”领域的本体,有点搞不清楚protege里面的property的添加。


Email:  haogong890@163.com


--  作者:dennison
--  发布时间:8/10/2006 3:49:00 PM

--  
谢谢!
--  作者:sl130com
--  发布时间:9/2/2006 10:59:00 PM

--  
能否发给我一份,谢谢,sl130com@hotmail.com
--  作者:seesharp
--  发布时间:9/6/2006 11:37:00 AM

--  
我也想要一份
xh_seed@163.com
--  作者:coco
--  发布时间:9/7/2006 3:30:00 PM

--  
正在奋斗中,这边有好多高手.
谢谢你们哦.

我可不可以也要一份本体学习学习啊?
jillchen353@163.com


--  作者:zhaoxh1979
--  发布时间:9/11/2006 10:36:00 PM

--  
我也f需要一份“教育技术”领域的本体,给我也发一份吧。谢谢!!
zhaoxh1979@126.com
--  作者:happier5281
--  发布时间:9/13/2006 1:05:00 PM

--  
我用中科院的ICTCLAS分词时,碰到一下问题:

#
# An unexpected error has been detected by HotSpot Virtual Machine:
#
#  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x03434e32, pid=224, tid=180
#
# Java VM: Java HotSpot(TM) Client VM (1.5.0_02-b09 mixed mode, sharing)
# Problematic frame:
# C  [Split.dll+0x4e32]
#

---------------  T H R E A D  ---------------

Current thread (0x00850300):  JavaThread "AWT-EventQueue-0" [_thread_in_native, id=180]

siginfo: ExceptionCode=0xc0000005, writing address 0x088a3028

Registers:
EAX=0x00000004, EBX=0x011c2f70, ECX=0x00000001, EDX=0x00000001
ESP=0x031af2e8, EBP=0x0344df14, ESI=0x088a2fb9, EDI=0x088a3028
EIP=0x03434e32, EFLAGS=0x00010202

Top of Stack: (sp=0x031af2e8)
0x031af2e8:   00000000 0344df14 08fc90a0 0344df1c
0x031af2f8:   00000003 ffff9188 076e0048 00000001
0x031af308:   031a002d 0344e0c8 00028991 088a3028
0x031af318:   00000002 00000003 00000000 00000000
0x031af328:   2f00bfc7 ff00bc00 00000030 0343be02
0x031af338:   034f5260 00000000 03439d9b 00000009
0x031af348:   00501f58 00000009 0000000f 0000000e
0x031af358:   03439d5b 00000020 03439d48 00000020

Instructions: (pc=0x03434e32)
0x03434e22:   ae f7 d1 2b f9 8b c1 8b f7 8b 7c 24 2c c1 e9 02
0x03434e32:   f3 a5 8b c8 83 e1 03 f3 a4 8b 45 04 8b 8c 24 74


Stack: [0x03170000,0x031b0000),  sp=0x031af2e8,  free space=252k
Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)
C  [Split.dll+0x4e32]

Java frames: (J=compiled Java code, j=interpreted, Vv=VM code)
j  com.blogever.RssReader.SplitCaller.split(Ljava/lang/String;II)Ljava/lang/String;+0
J  textCateg.Tfidf.Split(Ljava/io/File;Ljava/util/Vector;)Ljava/util/Vector;
j  Tc_KNN.TrainPro.Doctf_idf(Ljava/io/File;I)[Ljava/util/Vector;+218
j  Tc_KNN.train_KNN.train_KNN(Ljava/lang/String;Ljava/lang/String;I)V+196
j  Tc_KNN.cateFrame.actionPerformed(Ljava/awt/event/ActionEvent;)V+409
j  javax.swing.AbstractButton.fireActionPerformed(Ljava/awt/event/ActionEvent;)V+84
j  javax.swing.AbstractButton$Handler.actionPerformed(Ljava/awt/event/ActionEvent;)V+5
j  javax.swing.DefaultButtonModel.fireActionPerformed(Ljava/awt/event/ActionEvent;)V+35
j  javax.swing.DefaultButtonModel.setPressed(Z)V+117
j  javax.swing.plaf.basic.BasicButtonListener.mouseReleased(Ljava/awt/event/MouseEvent;)V+35
j  java.awt.Component.processMouseEvent(Ljava/awt/event/MouseEvent;)V+64
j  javax.swing.JComponent.processMouseEvent(Ljava/awt/event/MouseEvent;)V+23
j  java.awt.Component.processEvent(Ljava/awt/AWTEvent;)V+81
j  java.awt.Container.processEvent(Ljava/awt/AWTEvent;)V+18
j  java.awt.Component.dispatchEventImpl(Ljava/awt/AWTEvent;)V+477
j  java.awt.Container.dispatchEventImpl(Ljava/awt/AWTEvent;)V+42
j  java.awt.Component.dispatchEvent(Ljava/awt/AWTEvent;)V+2
j  java.awt.LightweightDispatcher.retargetMouseEvent(Ljava/awt/Component;ILjava/awt/event/MouseEvent;)V+304
j  java.awt.LightweightDispatcher.processMouseEvent(Ljava/awt/event/MouseEvent;)Z+139
j  java.awt.LightweightDispatcher.dispatchEvent(Ljava/awt/AWTEvent;)Z+50
j  java.awt.Container.dispatchEventImpl(Ljava/awt/AWTEvent;)V+12
j  java.awt.Window.dispatchEventImpl(Ljava/awt/AWTEvent;)V+19
j  java.awt.Component.dispatchEvent(Ljava/awt/AWTEvent;)V+2
j  java.awt.EventQueue.dispatchEvent(Ljava/awt/AWTEvent;)V+46
j  java.awt.EventDispatchThread.pumpOneEventForHierarchy(ILjava/awt/Component;)Z+200
j  java.awt.EventDispatchThread.pumpEventsForHierarchy(ILjava/awt/Conditional;Ljava/awt/Component;)V+26
j  java.awt.EventDispatchThread.pumpEvents(ILjava/awt/Conditional;)V+4
j  java.awt.EventDispatchThread.pumpEvents(Ljava/awt/Conditional;)V+3
j  java.awt.EventDispatchThread.run()V+9
v  ~StubRoutines::call_stub

---------------  P R O C E S S  ---------------

Java Threads: ( => current thread )
  0x0085a330 JavaThread "TimerQueue" daemon [_thread_blocked, id=136]
  0x0085a6c0 JavaThread "DestroyJavaVM" [_thread_blocked, id=3228]
=>0x00850300 JavaThread "AWT-EventQueue-0" [_thread_in_native, id=180]
  0x008411b0 JavaThread "Java2D Disposer" daemon [_thread_blocked, id=3860]
  0x00839880 JavaThread "AWT-Windows" daemon [_thread_in_native, id=3252]
  0x00839e00 JavaThread "AWT-Shutdown" [_thread_blocked, id=1724]
  0x00831e80 JavaThread "Low Memory Detector" daemon [_thread_blocked, id=2476]
  0x0082f5b0 JavaThread "CompilerThread0" daemon [_thread_blocked, id=2344]
  0x0082e410 JavaThread "Signal Dispatcher" daemon [_thread_blocked, id=2636]
  0x0082d6e0 JavaThread "Finalizer" daemon [_thread_blocked, id=1628]
  0x0082c470 JavaThread "Reference Handler" daemon [_thread_blocked, id=3288]

Other Threads:
  0x0082b620 VMThread [id=1668]
  0x00832b60 WatcherThread [id=1380]

VM state:not at safepoint (normal execution)

VM Mutex/Monitor currently owned by a thread: None

Heap
def new generation   total 832K, used 395K [0x22bd0000, 0x22cb0000, 0x230b0000)
  eden space 768K,  50% used [0x22bd0000, 0x22c30470, 0x22c90000)
  from space 64K,  16% used [0x22ca0000, 0x22ca2a20, 0x22cb0000)
  to   space 64K,   0% used [0x22c90000, 0x22c90000, 0x22ca0000)
tenured generation   total 10532K, used 8335K [0x230b0000, 0x23af9000, 0x26bd0000)
   the space 10532K,  79% used [0x230b0000, 0x238d3fa0, 0x238d4000, 0x23af9000)
compacting perm gen  total 8192K, used 806K [0x26bd0000, 0x273d0000, 0x2abd0000)
   the space 8192K,   9% used [0x26bd0000, 0x26c99890, 0x26c99a00, 0x273d0000)
    ro space 8192K,  62% used [0x2abd0000, 0x2b0d8018, 0x2b0d8200, 0x2b3d0000)
    rw space 12288K,  46% used [0x2b3d0000, 0x2b95c620, 0x2b95c800, 0x2bfd0000)

Dynamic libraries:
0x00400000 - 0x0040c000  C:\Program Files\Java\jre1.5.0_02\bin\javaw.exe
0x7c920000 - 0x7c9b4000  C:\WINDOWS\system32\ntdll.dll
0x7c800000 - 0x7c91c000  C:\WINDOWS\system32\kernel32.dll
0x77da0000 - 0x77e49000  C:\WINDOWS\system32\ADVAPI32.dll
0x77e50000 - 0x77ee1000  C:\WINDOWS\system32\RPCRT4.dll
0x77d10000 - 0x77d9f000  C:\WINDOWS\system32\USER32.dll
0x77ef0000 - 0x77f37000  C:\WINDOWS\system32\GDI32.dll
0x77be0000 - 0x77c38000  C:\WINDOWS\system32\MSVCRT.dll
0x76300000 - 0x7631d000  C:\WINDOWS\system32\IMM32.DLL
0x62c20000 - 0x62c29000  C:\WINDOWS\system32\LPK.DLL
0x73fa0000 - 0x7400b000  C:\WINDOWS\system32\USP10.dll
0x6d640000 - 0x6d7c5000  C:\Program Files\Java\jre1.5.0_02\bin\client\jvm.dll
0x76b10000 - 0x76b3a000  C:\WINDOWS\system32\WINMM.dll
0x6d280000 - 0x6d288000  C:\Program Files\Java\jre1.5.0_02\bin\hpi.dll
0x76bc0000 - 0x76bcb000  C:\WINDOWS\system32\PSAPI.DLL
0x6d610000 - 0x6d61c000  C:\Program Files\Java\jre1.5.0_02\bin\verify.dll
0x6d300000 - 0x6d31d000  C:\Program Files\Java\jre1.5.0_02\bin\java.dll
0x6d630000 - 0x6d63f000  C:\Program Files\Java\jre1.5.0_02\bin\zip.dll
0x6d000000 - 0x6d166000  C:\Program Files\Java\jre1.5.0_02\bin\awt.dll
0x72f70000 - 0x72f96000  C:\WINDOWS\system32\WINSPOOL.DRV
0x76990000 - 0x76acd000  C:\WINDOWS\system32\ole32.dll
0x5adc0000 - 0x5adf7000  C:\WINDOWS\system32\uxtheme.dll
0x736d0000 - 0x73719000  C:\WINDOWS\system32\ddraw.dll
0x73b30000 - 0x73b36000  C:\WINDOWS\system32\DCIMAN32.dll
0x738b0000 - 0x73980000  C:\WINDOWS\system32\D3DIM700.DLL
0x74680000 - 0x746cb000  C:\WINDOWS\system32\MSCTF.dll
0x10000000 - 0x1001d000  C:\WINDOWS\DOWNLO~1\BDPlugin.dll
0x770f0000 - 0x7717c000  C:\WINDOWS\system32\OLEAUT32.dll
0x77bd0000 - 0x77bd8000  C:\WINDOWS\system32\VERSION.dll
0x73640000 - 0x7366e000  C:\WINDOWS\system32\msctfime.ime
0x7d590000 - 0x7dd82000  C:\WINDOWS\system32\shell32.dll
0x77f40000 - 0x77fb6000  C:\WINDOWS\system32\SHLWAPI.dll
0x77180000 - 0x77282000  C:\WINDOWS\WinSxS\x86_Microsoft.Windows.Common-Controls_6595b64144ccf1df_6.0.2600.2180_x-ww_a84f1ff9\comctl32.dll
0x5d170000 - 0x5d207000  C:\WINDOWS\system32\comctl32.dll
0x6d240000 - 0x6d27d000  C:\Program Files\Java\jre1.5.0_02\bin\fontmanager.dll
0x6d4c0000 - 0x6d4d3000  C:\Program Files\Java\jre1.5.0_02\bin\net.dll
0x71a20000 - 0x71a37000  C:\WINDOWS\system32\WS2_32.dll
0x71a10000 - 0x71a18000  C:\WINDOWS\system32\WS2HELP.dll
0x6d4e0000 - 0x6d4e9000  C:\Program Files\Java\jre1.5.0_02\bin\nio.dll
0x03430000 - 0x034fb000  D:\Program Files\Eclipse\eclipse\workspace\Knn_Tc\Split.dll

VM Arguments:
java_command: Tc_KNN.cateFrame

Environment Variables:
JAVA_HOME=C:\Program Files\Java\jdk1.5.0_02
CLASSPATH=.;C:\Program Files\Java\jdk1.5.0_02\lib\dt.jar;C:\Program Files\Java\jdk1.5.0_02\lib\tools.jar;D:\Program Files\Tomcat 4.1\common\lib\servlet-api.jar;E:\JAVA\QATEST\axis-1_2_1\lib\axis.jar;E:\JAVA\QATEST\axis-1_2_1\lib\commons-logging-1.0.4.jar;E:\JAVA\QATEST\axis-1_2_1\lib\wsdl4j-1.5.1.jar;E:\JAVA\QATEST\axis-1_2_1\lib\commons-discovery-0.2.jar;E:\JAVA\QATEST\axis-1_2_1\lib\jaxrpc.jar;E:\JAVA\QATEST\axis-1_2_1\lib\saaj.jar;E:\JAVA\QATEST\axis-1_2_1\lib\axis-ant.jar;E:\JAVA\QATEST\axis-1_2_1\lib\log4j-1.2.8.jar
PATH=C:\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32\Wbem;C:\Program Files\Microsoft SQL Server\80\Tools\BINN;C:\Program Files\Java\jdk1.5.0_02\bin
USERNAME=wujianjun
OS=Windows_NT
PROCESSOR_IDENTIFIER=x86 Family 15 Model 4 Stepping 1, GenuineIntel


---------------  S Y S T E M  ---------------

OS: Windows XP Build 2600 Service Pack 2

CPU:total 1 family 15, cmov, cx8, fxsr, mmx, sse, sse2, ht

Memory: 4k page, physical 261616k(35616k free), swap 728968k(300220k free)

vm_info: Java HotSpot(TM) Client VM (1.5.0_02-b09) for windows-x86, built on Mar  4 2005 01:53:53 by "java_re" with MS VC++ 6.0

不知道怎么解决???


--  作者:ztszhang
--  发布时间:9/13/2006 7:56:00 PM

--  
我也想要一份“教育技术”领域的本体,可惜来晚了,不知哪位好心的,给发一份,参考一下,谢谢了。
zts16@yahoo.com.cn
--  作者:D_Dorf
--  发布时间:9/21/2006 10:01:00 PM

--  
有个问题请教楼主:你的本体是自己建的吗?我现在也想做个基于本体的搜索引擎,但是不知道本体如何获得,楼主有没有好的建议,不胜感激。
另外也很想要份 “教育技术”领域的本体。 sisilingzhao@hotmail.com
--  作者:D_Dorf
--  发布时间:9/21/2006 10:04:00 PM

--  
有个问题请教楼主:你的本体是自己建的吗?我现在也想做个基于本体的搜索引擎,但是不知道本体如何获得,楼主有没有好的建议,不胜感激。
另外也很想要份 “教育技术”领域的本体。 sisilingzhao@hotmail.com
--  作者:skinner
--  发布时间:10/18/2006 1:49:00 AM

--  
能否也给我一份领域本体
zhanggongjie@126.com
--  作者:yuico
--  发布时间:11/1/2006 10:44:00 PM

--  
麻烦lz也给我传个领域本体
neugena@126.com
非常感谢!
--  作者:wufish
--  发布时间:11/12/2006 5:55:00 PM

--  
能否也发给我一个
wufishyu@163.com
谢谢!
--  作者:flyingFang
--  发布时间:11/14/2006 5:17:00 PM

--  
lz好,我也想参考您的那个领域本体。刚刚接触这个新领域,有个东西参考应该是对新手莫大的帮助了。 谢谢楼主先!

fangmetal@163.com


--  作者:coco
--  发布时间:11/14/2006 9:58:00 PM

--  
好象楼主很忙,没空给发.哪位朋友有构建好的本体?
继续奋斗啊.呵呵~
--  作者:addcplus
--  发布时间:1/21/2007 10:27:00 AM

--  
很抱歉从毕业之后一直没有到这个论坛,今天才发现大家留了很多问题。
我决定把“教育技术本体”上传上来
--  作者:windancer2003
--  发布时间:1/23/2007 3:50:00 PM

--  
感谢!楼主!我等着您的“教育技术本体”
--  作者:leou2006
--  发布时间:2/27/2007 1:15:00 PM

--  
有没有ictclas。dll下载啊?
--  作者:funson
--  发布时间:3/3/2007 9:43:00 PM

--  
不知上传到那里了?我也要一份!hsfunson@163.com
--  作者:campushr
--  发布时间:3/7/2007 11:53:00 PM

--  
我也想要一份!campushr@126.com 谢谢!!
--  作者:channel_we
--  发布时间:3/8/2007 4:45:00 PM

--  
用protege构建的“教育技术”领域的本体能给我一份吗?
非常感谢!
channel_we@mail.nwpu.edu.cn
--  作者:xmkcg
--  发布时间:3/11/2007 1:25:00 PM

--  
LZ上传 到哪里啊?FTP里找不到,能否给我一份?
谢谢!
Kingcg@163.com
--  作者:geminihua
--  发布时间:4/27/2007 4:23:00 PM

--  
用protege构建的“教育技术”领域的本体能给我一份吗?
非常感谢!
xinghua_bupt@yahoo.com.cn
--  作者:strawman
--  发布时间:4/27/2007 8:47:00 PM

--  
用protege构建的“教育技术”领域的本体能给我一份吗?
非常感谢!
strawman2005@yeah.net
--  作者:frankjin1982
--  发布时间:5/15/2007 11:54:00 AM

--  
您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!我的邮箱是bameinini@163.com

--  作者:feng2007
--  发布时间:5/15/2007 9:44:00 PM

--  

您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢! 我的邮箱是:1008chao@163.com


--  作者:lalakjj
--  发布时间:6/8/2007 10:54:00 PM

--  
我也要一份,在此感谢了,lalakjj@swu.edu.cn
--  作者:lili91326
--  发布时间:6/14/2007 5:33:00 PM

--  
才接触这方面,大家说的对我的研究方向很有帮助,谢谢大家的分享
--  作者:whzhufan
--  发布时间:6/20/2007 3:07:00 PM

--  
“教育技术”领域的本体也给我一份吧.
非常感谢!whzhufan01@163.com
--  作者:lgkelong
--  发布时间:6/20/2007 4:36:00 PM

--  
多谢
--  作者:maomaogougou
--  发布时间:7/9/2007 11:27:00 AM

--  
华东师大计算机系的贝克(QQ名)博士的怎么联系啊?
--  作者:victordyb
--  发布时间:7/9/2007 7:40:00 PM

--  
victordyb_1105@163.com
--  作者:samson126
--  发布时间:7/11/2007 3:30:00 PM

--  
写的不错,要是实现写再详细一点就更好了
谢谢
--  作者:beandoudou
--  发布时间:7/11/2007 4:46:00 PM

--  
关注很久了
请问楼主把本体传上来了吗?:)
--  作者:hunterdong
--  发布时间:7/24/2007 11:33:00 PM

--  
其实,要了本体,还是不可能知道“属性是怎么添加“的这些问题
--  作者:ejun_2006
--  发布时间:8/14/2007 8:45:00 AM

--  
“教育技术”领域的本体也给我一份吧.
非常感谢! ejun2004@yeah.net

另外没有找到你上传得地方 万分感谢!


--  作者:wszh197
--  发布时间:8/22/2007 11:01:00 PM

--  
“教育技术”领域的本体也给我一份吧.
万分感谢!wszh197@163.com

--  作者:bzbc
--  发布时间:9/26/2007 9:31:00 PM

--  
“教育技术”领域的本体也给我一份吧.
感谢!xiewp145@163.com

--  作者:gridking
--  发布时间:9/27/2007 10:26:00 AM

--  
请问语义群的号码是多少啊?我想加入,我的研究方向是语义web
--  作者:rebill
--  发布时间:12/10/2007 11:38:00 PM

--  
不错!有空讨论一下!
--  作者:yunfeiboy
--  发布时间:12/25/2007 9:27:00 AM

--  
新手请教:如何调用JENA API
--  作者:myldb_sw
--  发布时间:12/27/2007 11:36:00 AM

--  
LZ牛啊,这几天一定抽空研读你的硕士论文
佩服!
--  作者:icecoolfire
--  发布时间:2/24/2008 10:50:00 PM

--  
因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!
zhyanb@126.com
--  作者:冬雨
--  发布时间:3/1/2008 10:00:00 PM

--  下了一个,谢谢楼主
3q
--  作者:zhumzhu
--  发布时间:3/13/2008 11:07:00 AM

--  
谢谢
--  作者:yhl5115
--  发布时间:3/13/2008 1:08:00 PM

--  
学习中,谢谢
--  作者:lzz
--  发布时间:3/20/2008 7:33:00 PM

--  
楼主太牛了...佩服中.....
--  作者:mcat
--  发布时间:3/20/2008 9:36:00 PM

--  
好东西,可惜没有钱了~
--  作者:pplive723
--  发布时间:3/25/2008 1:40:00 PM

--  
顶顶顶
--  作者:pplive723
--  发布时间:3/25/2008 1:44:00 PM

--  

--  作者:xiawared
--  发布时间:4/17/2008 8:11:00 PM

--  
不是很懂啊。。。。。。。。。。。。。
--  作者:sunrisee
--  发布时间:4/18/2008 8:58:00 AM

--  
学习啊学习
--  作者:xpg0312
--  发布时间:4/18/2008 5:38:00 PM

--  
真不错啊。在这里受益匪浅啊。继续学习中……
--  作者:zibo
--  发布时间:4/19/2008 1:09:00 PM

--  
你好,麻烦你发一份给我好吗?谢谢!!急想学习!gnsy_787@yahoo.com.cn
--  作者:xiawared
--  发布时间:4/20/2008 7:27:00 PM

--  
我也想要一个,麻烦你发一个给我啊,万分感谢。。。
cat841029@163.com
--  作者:hutu886
--  发布时间:8/2/2008 1:33:00 AM

--  
OK!!Q!!
--  作者:asoopoo
--  发布时间:8/20/2008 8:52:00 PM

--  
博士论文准备利用本体做搜索引擎,但一直没有思路,不知能否提供一些资料和建议,谢谢!
--  作者:onlyzlj
--  发布时间:9/5/2008 11:07:00 AM

--  
hao
--  作者:onlyzlj
--  发布时间:9/5/2008 11:09:00 AM

--  
谢谢
--  作者:mauphyzz
--  发布时间:4/23/2010 10:41:00 PM

--  
也请楼主顺便把你的本体发我一份,我最近也在弄关于本体检索方面的东西。
lovelycatty319@163.com
3Q
--  作者:shenxin1986
--  发布时间:5/14/2010 9:47:00 AM

--  
ictclas怎么用呢?请问
--  作者:tony001
--  发布时间:7/21/2010 8:33:00 AM

--  
太专业了。
--  作者:tony001
--  发布时间:7/21/2010 8:38:00 AM

--  
太专业了。
--  作者:welcont
--  发布时间:7/29/2010 12:29:00 PM

--  
我也要一份“教育技术”领域的本体,有点搞不清楚protege里面的property的添加。

Email:  welcont@qq.com


--  作者:一室阳光
--  发布时间:8/27/2010 10:03:00 PM

--  
你好!
我的毕业设计做有关语义搜索方面的研究,现在理论研究比较通透,可系统实现上存在很大困难。在W3C里看到你的讨论,知道你在这方面有所突破,所以特来向你请教。
不知你是否有相关的设计可以借鉴一下,或者可以帮我做原型系统设计。虚心请教,请一定回复~
谢谢!
可以回复到我邮箱yueran_0915@126.com
--  作者:lancxy
--  发布时间:9/3/2010 3:31:00 PM

--  
各位精英们
北京阳光安吉互联网技术有限公司 高薪诚聘 “Web数据挖掘工程师”
1、对互联网和搜索引擎技术有浓厚兴趣;
2、有大规模数据挖掘、算法分析1年以上技术背景;
3、具有深厚的统计学、数学、人工智能和数据挖掘知识基础;精通数据挖掘方法论,熟练掌握Logistic回归、决策树、聚类等算法及应用; 熟悉数据挖掘项目过程;
4、有很强的分析问题和解决问题的能力,对数据很敏感,具有较好的技术创新能力;
5.具有海量数据挖掘、分析相关项目实施的工作经验
6、有Lucene开发经验或领导技术团队经验者优先。
7.英文水平较佳者优先。
工作地点:北京朝阳区
欢迎大家加入我们,有意向者请和我们联系。
QQ:147372562 联系电话:010-52088868-803
我们期待您的加入!!!
--  作者:zhoucqucs
--  发布时间:11/18/2010 6:38:00 PM

--  
各位收到了啊,麻烦发给俺一份
zhoucqucs@163.com
十分感谢!!!
--  作者:apple_1051
--  发布时间:2/18/2012 7:17:00 PM

--  你好
是啊,我也是在做这块儿了,也是苦于没有什么好的想法,唉,挺迷茫的!!
--  作者:nwy1038422804
--  发布时间:6/1/2015 4:23:00 PM

--  
"教育领域的本体"能给我一份吗?虽然已经过去很久了,还希望楼主能给我一份,谢谢~
--  作者:tempforever
--  发布时间:8/26/2015 11:30:00 AM

--  
楼主 近期在做本体 以及语义检索方面的课学习,但在系统实现上不是很会,能否把 系统实现的相关代码和资料发份呀,感谢,sunnyforever99@163.com
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
523.438ms