本站首页    管理页面    写新日志    退出


«October 2025»
1234
567891011
12131415161718
19202122232425
262728293031


公告
暂无公告...

我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:
日志总数:111
评论数量:190
留言数量:-24
访问次数:641194
建立时间:2007年4月21日




[搜索引擎]开发自己的搜索引擎——Lucene2.0+Heritrix
网上资源

赵勇 发表于 2007/5/12 15:53:14

开发自己的搜索引擎——Lucene2.0+Heritrix(爬虫) http://lucenebook.spaces.live.com/ 书的目录 目录第一篇  搜索引擎入门第1章  搜索引擎与信息检索 1 第二篇  Lucene开发详解第2章  Lucene入门实例 16第3章  索引的建立 42第 4章  Lucene搜索 86 第5章  排序、过滤和分页 159第6章  Lucene的分析器 197 第三篇  Lucene相关话题第7章  Word、Excel和PDF的处理 220第8章  Compass:封装了Lucene的框架 243第9章  Lucene分布式和Google Search API 271 第四篇  网络爬虫Heritrix第10章  无比强大的网络爬虫Heritrix 280 第五篇  构建垂直搜索引擎第11章  搜索引擎的数据准备 328第12章  使用正则表达式与HTMLParser提取网页内容 402第13章  使用Ajax框架:DWR 423第14章  实现Web界面 471


阅读全文(12150) | 回复(2) | 编辑 | 精华
 


学习计划
网上资源

赵勇发表评论于2007/6/10 16:42:56

  搜索引擎学习计划 1. Heritrix学习 4天   1.1安装和配置Heritrix 2天   1.2抓取搜狐新闻 0.5天   1.3 抓取太平洋手机网 0.5天   1.4 抓取网易手机频道 0.5天   1.5抓取清华大学 0.5天 2. 信息提取  2天   2.1 利用正则表达式   2.2 利用htmlParse解析网页 3. Lucene学习   10天   3.1 Lucene基本知识 3天   3.2 Lucene对网页索引 3天   3.3 Lucene对数据库索引 2天    3.4 Lucene对Office文件的索引 2天 4. 构建web搜索引擎 5天   4.1 搭建一个搜索引擎 


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


回复:开发自己的搜索引擎——Lucene2.0+Heritrix
网上资源

赵勇发表评论于2007/5/29 21:21:41

编辑特地开通了一个网站 : http://www.rzchina.net 上面有关于这本书的一个版面,读者朋友有问题也可以在这个版面上发贴提问。或是加我MSN : luceneheritrix@hotmail.com 或是发邮件到 luceneheritrix@163.com 

个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除
 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.030 second(s), page refreshed 144800626 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号