本站首页    管理页面    写新日志    退出


«November 2025»
1
2345678
9101112131415
16171819202122
23242526272829
30


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:111
评论数量:190
留言数量:-24
访问次数:642019
建立时间:2007年4月21日




[搜索引擎]Nutch安装(linux+windows) 
原创空间,  电脑与网络

赵勇 发表于 2007/5/15 0:22:14

Nutch在Windows安装(nutch0.7.2):本机配置:CPU: AMD Athon(tm) 64 Processor 3000+ 1.8G内存: 1.00G可用硬盘空间: 20G操作系统: windows XP 安装文件: jdk5.0: http://developers.sun.com/downloads/ nutch0.7.2:http://www.apache.org/dyn/closer.cgi/lucene/nutch/ Cygwin2.29: http://www.cygwin.com/mirrors.html tomcat5.5: http://tomcat.apache.org/ Ant1.7.0:          http://ant.apache.org/bindownload.cgi    安装步骤:1. 安装jdk(记得设置好环境变量JAVA_HOME)2. 安癈cygwin到d:\cygwin3. 下载Nutch版本nutch-0.7.2.tar.gz到我的工作目录~下解压缩power@dbgroup-3443ca1 ~ tar -zxvf nutch-0.7.2.tar.gz更改目录power@dbgroup-3443ca1 ~ mv nutch-0.7.2 nutch测试Nutchpower@dbgroup-3443ca1 ~/nutch  bin/nutch 如果显示命令提示,应该就安装成功了4. 设置参数,进行Intranet Crawling在/nutch目录下新建一个文件,文件名为urls,文件内容: http://www.stanford.edu在/nutch/conf下crawl-urlfilter.txt的倒数第四行进行修改+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/改为  +^http://([a-z0-9]*\.)*stanford.edu/5 运行抓取命令:power@dbgroup-3443ca1 ~/nutchbin/nutch crawl urls -dir stanford.demo -depth 4 -threads 4 >& stanford.logdepth 参数指爬行的深度,这里处于测试的目的,选择深度为 4 ;如果要全部抓取,设置成深度为 10threads 参数指定并发的进程 这是设定为 4 ;应该可以抓取了。6. Tomcat 可以安装在不同的地方: 方式一:如果安装在cygwin下面的/opt/Tomcat下rm -rf /opt/Tomcat/webapps/ROOT*cp nutch*.war /opt/Tomcat/webapps/ROOT.warcd /opt/Tomcat/webapps/jar xvf ROOT.war../bin/catalina.sh start浏览器中输入 http://localhost:8080 查看结果(远程查看需要将 localhost 换成相应的IP) 方式二:如果安装在D:/tomcat目录下 将tomcat停止 将tomcat的webapps下的Root目录删掉 将nutch0.7.2.war拷贝到tomcat的webapps下,并将其改名为 Root.war 重启tomcat,Root.war将自动解压缩成Root目录 将ROOT/WEB-INF/classes/下的nutch-site.xml加上如下语句:<nutch-conf><property><name>searcher.dir</name><value>d:\\abc\\nutch\\tsinghua</value></property></nutch-conf> 浏览器中输入 http://localhost:8080 查看结果(远程查看需要将 localhost 换成相应的IP)        Nutch在linux下的安装 一。  安装Ant  1。解压缩 tar -xzpvf apache-ant-1.6.5-bin.tar.gz 2。复制到上一层目录 cp -r apache-ant-1.6.5 ../ant 3。设置环境变量 export ANT_HOME=~/ant    显示环境变量 echo $ANT_HOME    显示所有环境变量 env4。 加入PATH路径: export PATH=$PATH:$ANT_HOME/bin安装完毕 二。 安装Nutch1。 cd  ~/nutch2。 ant3。 bin/nutch crawl urls -depth 3 -dir tsinghua >&tsinghua.logurls的内容:http://www.tsinghua.edu.cn/eng/index.html4. 查看结果: vi tisnghua.log   查看所有文件详细信息: du -h 三。 安装Tomcat1。 tar -xzpvf apache-tomcat-5.5.17.tar.gz2。 cp -r apache-tomcat-5.5.17 ../Tomcat3.  将/home/zhaoyong/Tomcat/webapps下的ROOT改为ROOT14。 将 Nutch war 文件复制到 Tomcat/webapps下,并叫做ROOT.warcp nutch/nutch*.war Tomcat/webapps/ROOT.war5。解压缩到如下ROOT目录。jar xvf ROOT.war6。将ROOT/WEB-INF/classes/下的nutch-site.xml加上如下语句:<nutch-conf><property><name>searcher.dir</name><value>/home/zhaoyong/nutch/tsinghua</value></property></nutch-conf>7. Tomcat/bin/catalina.sh start然后http://localhost:8080/ 呵呵,Nutch在linux安装就成功了。   参考资料:Nutch version 0.8 tutorial http://lucene.apache.org/nutch/tutorial8.htmlNutch 初体验http://www.dbanotes.net/archives/2005/01/nutch_aee.html  


阅读全文(4775) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.719 second(s), page refreshed 144800823 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号