本站首页 管理页面写新日志退出

« January 2026 »
日一二三四五六
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

公告

我的分类（专题）

首页(1304)
Eclipse(8)
J2ME(3)
OpenSymphony(16)
Hibernate(97)
Tapestry(23)
J2SE(72)
Symbian(2)
eXtremeComponents(13)
JBoss(33)
Javascript(13)
MySQL(72)
Java Open Source(104)
DWR(Ajax)(29)
Spring(61)
WebWork(15)
Apache(jakarta)(77)
软件设计(6)
算法(22)
Acegi(2)
Subversion(44)
Dojo(Ajax)(2)
Wicket(3)
IDEA(2)
ESB(6)
TinyMCE+FCKeditor(20)
Grails(1)
Prototype(Ajax)(32)
设计模式(20)
Prototype(0)
FreeMarker(17)
集成测试(14)
codehaus.org(2)
AOP(13)
Java代码(7)
Struts 2.0(6)
Groovy(5)
Linux(10)
网站架构(70)
Cache(11)
Python(40)
网络与系统管理(34)
shell/bash(4)
Pylons学习(2)
Django(88)
Ruby on Rails(120)
Ubuntu(4)
Quixote(3)
视频处理(20)
Web(UI+UE)(2)
TurboGears(25)
jQuery(2)
iBatis(7)
CentOS(2)
MySQL集群(1)
SELinux(1)

日志更新

Java中压缩与解压--中文文件名乱码解
对当前目录下所有文件进行压缩代码
java zip 中文问题
iBatis for Paging
再析在spring框架中解决多数据源的问
如何在spring框架中解决多数据源的问
SELinux 的配置小解
apache+mod_ssl中证书生成方
StatSVN的使用（续）
[原创]MySQL的LIST分区体验与总

留言板

签写新留言

我也想装饰元件
谢谢
飘过！
模板的问题
mule 求助
extremecomponents.cs
搜索呢？
[Apache(jakarta)]Apa
jsper报表的制作!
求助一下,关于compass的

链接

SpringSide
SpringFramework中文论坛
 BlogJava
Java开源大全
 Java视线论坛
 CSDN Java频道
 JavaScud开源平台
 JavaAPI中文文档
 一个不错的提供代码示例的站点
 Spring 中文开发手册(1.1.PR)
Springframework
Hibernate
Java版模式速查手册
 良葛格學習筆記
 javareference
java2s
GRAILS

Blog信息

blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7695167
建立时间:2006年5月29日

[Apache(jakarta)]让Nutch支持中文分词　
软件技术

lhwork 发表于 2006/12/14 11:42:00

Nutch搜索引擎是一个构建在Lucene上的开放源代码的搜索引擎。可以通过CVS取得它的最新版本。让nutch支持中文分词的方法和Lucene类似，但是

阅读全文(2230) | 回复(1) | 编辑 | 精华 | 删除

[Apache(jakarta)]向Lucene增加中文分词功能　
软件技术

lhwork 发表于 2006/12/14 11:41:14

一、分词功能介绍分词模块对于搜索的重要性不言而喻。例如，没有分词时，搜索“和服”会出现“产品和服务”，搜索“海尔”会出现“海尔德”，搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。猎兔全球首家推出支持Lucene

阅读全文(3843) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]lucene多种搜索方式详解例子
软件技术

lhwork 发表于 2006/12/14 10:50:37

package src;

import java.io.StringReader;
import java.util.Date;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.DateField;
import org.apach

阅读全文(2352) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]Lucene 中文分词的 highlight 显示
软件技术

lhwork 发表于 2006/12/14 10:18:54

1 、问题的来源增加分词以后结果的准确度提高了，但是用户反映返回结果的速度很慢。原因是， Lucene 做每一篇文档的相关关键词的高亮显示时，在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Token.getPositionIncrement() 和 Token.startOffset() 以及 Token.endOffset() 信息。利用 Lucene 中新增加的 Token 信息的保存结果以后，就不需要为了高亮显示而在运行时解析每篇文档。通过 Field 方法控制是否保存该信息。修改 HighlighterTest.java 的代码如下： // 增加文档时保存 Term 位置信息。 private void addDoc(IndexWriter writer, String text) throws IOException

阅读全文(1660) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]Nutch的自动运行 (windows)
软件技术

lhwork 发表于 2006/12/13 16:04:58

1：在Windows下调用nutch的脚本，可实现自动运行，这样做可以不用crywin来模拟linux,下面式win xp调用nutch的脚本 nutch.bat @cmd /Vn /c %~dp0nutch1.bat %* nutch1.bat @echo on rem ********************************************************************* rem * A script to launch nutch on Windows 2000/XP System. rem * rem * Written by babatu rem *
阅读全文(2614) \| 回复(1) \| 编辑 \| 精华 \| 删除

[Apache(jakarta)]Nutch version 0.8 安装向导
软件技术

lhwork 发表于 2006/12/13 16:04:24

1、必要的条件
1.1 Java 1.4或1.4以上版本。操作系统推荐用Linux（Sun或IBM的都可以）。记得在环境变量中设置变量NUTCH_JAVA_HOME=你的虚拟机地址，例如，本人将jdk1.5安装在c:\jdk1.5文件夹下，所以本人的设置为NUTCH_JAVA_HOME=c:\jdk1.5（此为win32 环境下的设置方法）。
1.2 服务器端推荐使用Apache’s Tomcat 4.x或该版本以上的Tomcat。
1.3 当要在win32安装Nutch时，请安装cygwin软件，以提供Linux的shell支持。
1.4 安装Nutch需要消耗Ｇ字节的磁盘空间，高速的连接并要花费一个小时左右的时间等等。
2、从这开始
2.1 首先，你必须获得Nutch源码的一个拷贝。你可以从网址：http://lucene.

阅读全文(2721) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]Nutch 初体验之二（转）
软件技术

lhwork 发表于 2006/12/13 15:57:27

Nutch 初体验之二－－－－转自DBA notes　　　
地址：http://rayspace.bokee.com/5425910.html

前几天介绍了 Nutch 的基本信息以及如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

* Web 数据库。包含所有Nutch可以辨别的页面，以及这些页面间的链接信息。
* 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型：
o fetchlist：指定待

阅读全文(1578) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]Nutch 初体验(转)
软件技术

lhwork 发表于 2006/12/13 15:56:30

Nutch 初体验－－－－转自DBA notes 地址：http://rayspace.bokee.com/5425900.html

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具一文提到 Nutch，很是感兴趣，但一直没有时间进行测试研究。趁着假期，先测试一下看看。用搜索引擎查找了一下，发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍。

Nutch vs Lucene
Lucene 不是完整的应用程序，而是一个用于实现全文检索的软件库。
Nutch 是一个应用程序，可以以 Lucene 为基础实现搜索引擎应用。

Nutch vs GRUB
GRUB 是一个分布式搜索引擎(参考)。用户只能得到客户端工具(只有客户端是开

阅读全文(1633) | 回复(0) | 编辑 | 精华 | 删除

[Apache(jakarta)]【转载】Nutch 0.8笔记--Google式的搜索引擎实现
软件技术

lhwork 发表于 2006/12/13 15:55:01

原文地址：http://www.blogjava.net/calvin/archive/2006/08/09/62507.html
作者：江南白衣

Nutch是一个基于

阅读全文(4217) | 回复(-1) | 编辑 | 精华 | 删除

[Apache(jakarta)]Crawl the Nutch -- Map Reduce
软件技术

lhwork 发表于 2006/12/13 15:34:47

Crawl the Nutch -- Map Reduce 初见于Google Lab的Paper, http://labs.google.com/papers/mapreduce.html，论文中表明在有大量集群支撑的情况下，可以快速的在海量文档中进行数据处理。现在你有一堆数据，你需要按记录修改、查询、插入和删除，一种办法是你为这些记录建立索引，比如放入数据库，还有一种办法就是--MapReduce。这种处理方式实际上是在数据存放的时候不建立索引，等实际处理数据的时候再将这些数据读入内存进行排序，并可以用Partitioner将数据分在不同的机器上同时进行处理，因此可以方便的实现集群计算，我猜想在一台机器上存放的数据容量以能够全部装进内存为限。

MapReduce把对数据记录的所有操作都归结两个步骤--M

阅读全文(1856) | 回复(0) | 编辑 | 精华 | 删除

« 1 2 3 4 5 6 7 8 »

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.094 second(s), page refreshed 144804603 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号