| « | October 2025 | » | | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | |
| 公告 |
| 暂无公告... |
| Blog信息 |
|
blog名称: 日志总数:111 评论数量:190 留言数量:-24 访问次数:641194 建立时间:2007年4月21日 |

| |
|
[搜索引擎]开发自己的搜索引擎——Lucene2.0+Heritrix 网上资源
赵勇 发表于 2007/5/12 15:53:14 |
|
开发自己的搜索引擎——Lucene2.0+Heritrix(爬虫)
http://lucenebook.spaces.live.com/
书的目录
目录第一篇 搜索引擎入门第1章 搜索引擎与信息检索 1
第二篇 Lucene开发详解第2章 Lucene入门实例 16第3章 索引的建立 42第
4章 Lucene搜索 86
第5章 排序、过滤和分页 159第6章 Lucene的分析器 197
第三篇 Lucene相关话题第7章 Word、Excel和PDF的处理 220第8章 Compass:封装了Lucene的框架 243第9章 Lucene分布式和Google Search API 271
第四篇 网络爬虫Heritrix第10章 无比强大的网络爬虫Heritrix 280
第五篇 构建垂直搜索引擎第11章 搜索引擎的数据准备 328第12章 使用正则表达式与HTMLParser提取网页内容 402第13章 使用Ajax框架:DWR 423第14章 实现Web界面 471 |
|
|
学习计划 网上资源
赵勇发表评论于2007/6/10 16:42:56 |
|
搜索引擎学习计划
1. Heritrix学习 4天
1.1安装和配置Heritrix 2天
1.2抓取搜狐新闻 0.5天
1.3 抓取太平洋手机网 0.5天
1.4 抓取网易手机频道 0.5天
1.5抓取清华大学 0.5天
2. 信息提取 2天
2.1 利用正则表达式
2.2 利用htmlParse解析网页
3. Lucene学习 10天
3.1 Lucene基本知识 3天
3.2 Lucene对网页索引 3天
3.3 Lucene对数据库索引 2天
3.4 Lucene对Office文件的索引 2天
4. 构建web搜索引擎 5天
4.1 搭建一个搜索引擎 |
|
|
回复:开发自己的搜索引擎——Lucene2.0+Heritrix 网上资源
赵勇发表评论于2007/5/29 21:21:41 |
| 编辑特地开通了一个网站 : http://www.rzchina.net 上面有关于这本书的一个版面,读者朋友有问题也可以在这个版面上发贴提问。或是加我MSN : luceneheritrix@hotmail.com 或是发邮件到 luceneheritrix@163.com |
|
» 1 »
|