| « | November 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | | | | | | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:111 评论数量:190 留言数量:-24 访问次数:642019 建立时间:2007年4月21日 |

| |
|
[搜索引擎]Nutch安装(linux+windows)  原创空间, 电脑与网络
赵勇 发表于 2007/5/15 0:22:14 |
|
Nutch在Windows安装(nutch0.7.2):本机配置:CPU: AMD Athon(tm) 64 Processor 3000+ 1.8G内存: 1.00G可用硬盘空间: 20G操作系统: windows XP
安装文件:
jdk5.0: http://developers.sun.com/downloads/
nutch0.7.2:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
Cygwin2.29: http://www.cygwin.com/mirrors.html
tomcat5.5: http://tomcat.apache.org/
Ant1.7.0: http://ant.apache.org/bindownload.cgi
安装步骤:1. 安装jdk(记得设置好环境变量JAVA_HOME)2. 安癈cygwin到d:\cygwin3. 下载Nutch版本nutch-0.7.2.tar.gz到我的工作目录~下解压缩power@dbgroup-3443ca1 ~ tar -zxvf nutch-0.7.2.tar.gz更改目录power@dbgroup-3443ca1 ~ mv nutch-0.7.2 nutch测试Nutchpower@dbgroup-3443ca1 ~/nutch bin/nutch 如果显示命令提示,应该就安装成功了4. 设置参数,进行Intranet Crawling在/nutch目录下新建一个文件,文件名为urls,文件内容: http://www.stanford.edu在/nutch/conf下crawl-urlfilter.txt的倒数第四行进行修改+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/改为 +^http://([a-z0-9]*\.)*stanford.edu/5 运行抓取命令:power@dbgroup-3443ca1 ~/nutchbin/nutch crawl urls -dir stanford.demo -depth 4 -threads 4 >& stanford.logdepth 参数指爬行的深度,这里处于测试的目的,选择深度为 4 ;如果要全部抓取,设置成深度为 10threads 参数指定并发的进程 这是设定为 4 ;应该可以抓取了。6. Tomcat 可以安装在不同的地方:
方式一:如果安装在cygwin下面的/opt/Tomcat下rm -rf /opt/Tomcat/webapps/ROOT*cp nutch*.war /opt/Tomcat/webapps/ROOT.warcd /opt/Tomcat/webapps/jar xvf ROOT.war../bin/catalina.sh start浏览器中输入 http://localhost:8080 查看结果(远程查看需要将 localhost 换成相应的IP)
方式二:如果安装在D:/tomcat目录下
将tomcat停止
将tomcat的webapps下的Root目录删掉
将nutch0.7.2.war拷贝到tomcat的webapps下,并将其改名为
Root.war
重启tomcat,Root.war将自动解压缩成Root目录
将ROOT/WEB-INF/classes/下的nutch-site.xml加上如下语句:<nutch-conf><property><name>searcher.dir</name><value>d:\\abc\\nutch\\tsinghua</value></property></nutch-conf>
浏览器中输入 http://localhost:8080 查看结果(远程查看需要将 localhost 换成相应的IP)
Nutch在linux下的安装
一。 安装Ant 1。解压缩 tar -xzpvf apache-ant-1.6.5-bin.tar.gz 2。复制到上一层目录 cp -r apache-ant-1.6.5 ../ant 3。设置环境变量 export ANT_HOME=~/ant 显示环境变量 echo $ANT_HOME 显示所有环境变量 env4。 加入PATH路径: export PATH=$PATH:$ANT_HOME/bin安装完毕
二。 安装Nutch1。 cd ~/nutch2。 ant3。 bin/nutch crawl urls -depth 3 -dir tsinghua >&tsinghua.logurls的内容:http://www.tsinghua.edu.cn/eng/index.html4. 查看结果: vi tisnghua.log 查看所有文件详细信息: du -h
三。 安装Tomcat1。 tar -xzpvf apache-tomcat-5.5.17.tar.gz2。 cp -r apache-tomcat-5.5.17 ../Tomcat3. 将/home/zhaoyong/Tomcat/webapps下的ROOT改为ROOT14。 将 Nutch war 文件复制到 Tomcat/webapps下,并叫做ROOT.warcp nutch/nutch*.war Tomcat/webapps/ROOT.war5。解压缩到如下ROOT目录。jar xvf ROOT.war6。将ROOT/WEB-INF/classes/下的nutch-site.xml加上如下语句:<nutch-conf><property><name>searcher.dir</name><value>/home/zhaoyong/nutch/tsinghua</value></property></nutch-conf>7. Tomcat/bin/catalina.sh start然后http://localhost:8080/
呵呵,Nutch在linux安装就成功了。
参考资料:Nutch version 0.8 tutorial http://lucene.apache.org/nutch/tutorial8.htmlNutch 初体验http://www.dbanotes.net/archives/2005/01/nutch_aee.html
|
|
|