图书介绍
Lucene+nutch搜索引擎开发PDF|Epub|txt|kindle电子书版本网盘下载
- 王学松编著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115182166
- 出版时间:2008
- 标注页数:452页
- 文件大小:134MB
- 文件页数:466页
- 主题词:因特网-程序设计
PDF下载
下载说明
Lucene+nutch搜索引擎开发PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 搜索引擎概述3
1.1什么是搜索引擎3
1.1.1搜索引擎与信息检索3
1.1.2搜索引擎的概念4
1.1.3搜索引擎的使用4
1.1.4搜索引擎发展历史5
1.2搜索引擎分类7
1.2.1按照工作方式分类7
1.2.2按照领域范围分类8
1.2.3信息类型分类8
1.3主流搜索引擎9
1.3.1全球著名搜索引擎9
13.2中文搜索引擎的发展历史12
1.3.3著名中文搜索引擎12
1.3.4其他细化搜索引擎15
1.4搜索引擎评价原则15
1.4.1评价指标体系15
1.4.2其他评测因素17
1.5搜索引擎相关资源17
1.5.1搜索引擎开源项目18
1.5.2搜索引擎研究网站19
1.5.3搜索论坛和厂商黑板报19
1.6系统运行环境准备20
1.6.1 Java环境安装设置20
1.6.2 Tomcat服务器安装22
1.6.3 Eclipse开发环境准备25
1.7未来搜索技术前瞻28
1.7.1现状存在问题28
1.7.2未来发展趋势29
1.8小结30
第2章 搜索引擎原理探秘31
2.1解密搜索引擎原理31
2.1.1搜索引擎技术框架31
2.1.2网页信息抓取技术32
2.1.3网页内容分析技术33
2.1.4网页索引建立技术34
2.1.5用户检索与结果排序34
2.1.6网页检索工具与接口35
2.2网络爬虫简单实现35
2.2.1网络蜘蛛功能需求35
2.2.2网络蜘蛛实现原理36
2.2.3网络爬虫系统结构37
2.2.4网页采集程序设计38
2.2.5网页采集程序实现39
2.2.6程序实现存储扩展42
2.3网页分析程序实现44
2.3.1网页分析功能需求44
2.3.2网页分析实现原理45
2.3.3网页分析系统结构45
2.3.4网页分析程序设计46
2.3.5文本语素分割与过滤49
2.4网页索引程序实现52
2.4.1网页索引功能需求53
2.4.2网页索引实现原理53
2.4.3网页索引程序设计54
2.4.4网页索引程序实现55
2.5检索程序实现58
2.5.1检索功能需求58
2.5.2检索实现原理58
2.5.3检索程序设计59
2.5.4网页检索程序实现59
2.6简单搜索引擎系统61
2.7小结62
第3章 开源搜索引擎入门63
3.1开源搜索引擎简介63
3.1.1 Lucene系统概述63
3.1.2 Nutch概述64
3.2 Lucene全文检索系统部署65
3.2.1下载Lucene系统65
3.2.2 Lucene部署配置66
3.2.3 Lucene测试运行67
3.3 Lucene开发实例入门69
3.3.1 Lucene实例功能69
3.3.2 Lucene开发实例70
3.3.3代码实例解析75
3.4 Nutch开源搜索引擎部署77
3.4.1 Cygwin软件安装77
3.4.2 Nutch下载与安装79
3.4.3 Nutch系统环境测试80
3.4.4 Nutch搜索页面部署82
3.5 Nutch系统调试与开发82
3.5.1 Eclipse中加载Nutch83
3.5.2 Nutch工程编译与发布86
3.6小结87
第4章 搜索引擎数据获取91
4.1网络蜘蛛原理91
4.1.1体系结构设计91
4.1.2访问策略与算法92
4.1.3效率优化与更新93
4.1.4蜘蛛访问规范93
4.1.5开源蜘蛛简介93
4.2 Nutch网络蜘蛛94
4.2.1 Nutch网络蜘蛛概述94
4.2.2 Nutch抓取模式分类96
4.2.3抓取测试站点建立97
4.3 Nutch局域网抓取97
4.3.1本地下载准备98
4.3.2启动下载过程99
4.3.3下载过程解析101
4.3.4下载多个网站103
4.4 Nutch互联网抓取105
4.4.1下载列表获取106
4.4.2下载大量网站106
4.5 Nutch抓取比较107
4.6 Nutch结果检测111
4.6.1网页内容检索112
4.6.2使用Readdb获取摘要113
4.6.3使用SegRead读取分段115
4.6.4 Luke工具使用116
4.7 Nutch配置文件解析116
4.8 Heritrix网络蜘蛛118
4.8.1 Heritrix概述118
4.8.2 Heritrix体系结构119
4.8.3Heritrix安装与使用122
4.9小结125
第5章 搜索引擎信息索引126
5.1文档索引原理126
5.1.1索引概述126
5.1.2索引基本结构127
5.1.3倒排索引原理128
5.1.4索引分类128
5.1.5高性能索引129
5.2 Lucene索引器129
5.2.1 Lucene索引介绍129
5.2.2 Lucene索引结构130
5.2.3多文件索引结构133
5.2.4复合索引结构134
5.3 Lucene索引实例135
5.3.1索引创建代码解析135
5.3.2索引创建器137
5.3.3索引管理器138
5.3.4索引修改器139
5.3.5索引分析器140
5.4 Lucene索引操作141
5.4.1添加文本文件索引141
5.4.2创建Lucene增量索引143
5.4.3使用索引项删除文档144
5.4.4使用编号删除文档145
5.4.5压缩文档编号147
5.4.6索引文档更新148
5.5 Lucene索引高级特性151
5.5.1选择索引域类型151
5.5.2索引参数优化162
5.5.3使用磁盘索引165
5.5.4使用内存索引166
5.5.5同步与锁机制168
5.6 Lucene高级应用实例169
5.6.1创建本地搜索的索引169
5.6.2索引数据库记录173
5.6.3索引优化与合并176
5.7 Nutch中的Lucene索引178
5.8小结180
第6章 搜索引擎查询处理181
6.1信息查询原理181
6.1.1信息查询概述181
6.1.2查询基本流程182
6.1.3查询结果显示183
6.1.4高性能查询183
6.2 Lucene查询概述184
6.2.1 Lucene查询操作基础184
6.2.2 Lucene查询实例入门184
6.2.3查询工具IndexSearcher类187
6.2.4查询封装Query类188
6.2.5查询分析器QueryParser类188
6.2.6查询结果集Hits类191
6.3 Lucehe基本查询192
6.3.1 Lucene查询Query对象192
6.3.2最小项查询195
6.3.3区间范围搜索198
6.3.4逻辑组合搜索202
6.3.5字串前缀搜索205
6.3.6短语搜索208
6.3.7模糊搜索211
6.3.8通配符搜索214
6.3.9位置跨度搜索217
6.4 Lucene高级查询224
6.4.1索引内存检索224
6.4.2多关键字跨域检索226
6.4.3多检索器跨索引检索228
6.5 Nutch中的Lucene查询230
6.6小结231
第7章 搜索引擎结果排序232
7.1搜索引擎文档排序原理232
7.1.1传统检索排序技术232
7.1.2向量模型排序局限233
7.1.3搜索引擎相关性排序234
7.1.4链接分析PageRank原理235
7.1.5搜索引擎排序流程236
7.2 Lucene检索排序236
7.2.1 Lucene相关性因素236
7.2.2 Lucene相关排序流程237
7.2.3 Lucene排序计算体系237
7.2.4 Lucene排序控制方法240
7.3文档Boost加权排序240
7.3.1 Lucene中Boost介绍241
7.3.2 Boost值全文档排序241
7.3.3 Boost值文档域排序244
7.3.4 BoostingTermQuery排序246
7.4 Sort对象检索排序248
7.4.1 Sort对象概述248
7.4.2 Sort对象相关性排序249
7.4.3 Sort对象文档编号排序252
7.4.4 Sort对象独立域排序254
7.4.5 Sort对象联合域排序257
7.4.6 Sort对象逆向排序260
7.5 Lucene相关性公式261
7.5.1 Lucene评分结果分析262
7.5.2 Lucene排序公式264
7.5.3其他动态排序因子265
7.6 Lucene自定义排序266
7.6.1自定义排序比较接口266
7.6.2自定义排序接口类实例267
7.6.3自定义排序结果测试实例269
7.6.4自定义排序测试结果272
7.7 Nutch中的结果排序272
7.7.1 Nutch排序因素273
7.7.2 Nutch链接分析273
7.7.3 Nutch相关度计算274
7.8小结275
第8章 文档分析器与中文分词276
8.1文档分析与中文分词原理276
8.1.1文档分析预处理概述276
8.1.2文档分析基本流程276
8.1.3中文分析处理中的分词277
8.2 Lucene分析器内核原理278
8.2.1 Lucene分析器原理278
8.2.2 Analysis包简介280
8.2.3 Analyzer类的组合结构282
8.2.4 JavaCC构造分析器282
8.2.5 StopAnalyzer内核代码分析283
8.2.6 StandardAnalyzer内核代码分析284
8.3 Lucene分析器应用模式285
8.3.1使用默认分析器建立索引285
8.3.2使用多种分析器建立索引287
8.3.3使用分析器检索查询288
8.4 Lucene主要分析器应用实例291
8.4.1停用词分析器StopAnalyzer291
8.4.2标准分析器StandardAnalyzer294
8.4.3简单分析器SimpleAnalyzer297
8.4.4空格分析器WhitespaoeAnalyzer298
8.4.5关键字分析器KeywordAnalyzer300
8.5 TokenStream分词器内核分析301
8.5.1 Tokenizer分词器301
8.5.2标准分词器StandardTokenizer302
8.5.3字符分词器CharTokenizer303
8.5.4空格分词器 WhiteSpaceTokenizer304
8.5.5字母分词器LetterTokenizer304
8.5.6小写分词器LowerCaseTokenizer305
8.6 TokenStream过滤器内核分析305
8.6.1 TokenFilter过滤器306
8.6.2标准过滤器StandardFilter306
8.6.3停用词过滤器StopFilter307
8.6.4 小写过滤器LowerCaseFilter308
8.6.5长度过滤器LengthFilter309
8.6.6词干过滤器PorterStemFilter310
8.7 Lucene中文分词310
8.7.1中文分词基本原理方法311
8.7.2 StandardAnalyzer分析器中文处理312
8.7.3 CJKAnalyzer中文分析器313
8.7.4 ChineseAnalyzer中文分析器315
8.7.5 IK CAnalyzer中文分析器316
8.7.6中科院ICTCLAS中文分词318
8.7.7 JE中文分词318
8.7.8中文分词问题320
8.8 Nutch分词和预处理321
8.8.1 N utch分析器321
8.8.2 Nutch中文分词324
8.9小结324
第9章 搜索引擎文本分析325
9.1非结构化文本简介325
9.1.1非结构化文本概述325
9.1.2非结构化文本检索325
9.2 HTML文档分析326
9.2.1主流HTML文档分析器326
9.2.2 HTMLParser安装配置327
9.2.3 HTMLParser的框架结构328
9.3HTMLParser应用实例329
9.3.1 HTMLParser功能模式329
9.3.2 HTMLParser内容解析方式329
9.3.3 Visitor模式正文解析330
9.3.4 Filter模式简单链接提取332
9.3.5 Filter模式搜索链接提取334
9.3.6 Lexer模式遍历文档336
9.4 PDF文档分析337
9.4.1常用的PDF处理包338
9.4.2 PDFBox安装配置338
9.5 PDFBox应用实例339
9.5.1 PDFBox提取文档内容339
9.5.2 PDFBox文档内容索引342
9.6 Office文档分析346
9.6.1常用Office文档处理包346
9.6.2使用POI安装与配置346
9.6.3 POI原理与接口介绍348
9.7 POI分析Office文档实例348
9.7.1 POI处理Excel文档348
9.7.2 POI处理Word文档352
9.8 XML文档分析354
9.8.1主流XML文档分析器355
9.8.2 JDOM分析器安装配置356
9.8.3 xerces分析器安装配置358
9.9 XML解析应用实例359
9.9.1使用JDOM分析XML文档359
9.9.2使用xerces分析XML文档361
9.10 Nutch文档处理364
9.11小结364
第10章 分布式搜索与缓存365
10.1分布式检索与缓存365
10.1.1分布式搜索引擎现状365
10.1.2分布式搜索引擎原理366
10.1.3搜索引擎缓存现状367
10.1.4搜索引擎缓存原理367
10.2 Nutch与分布式检索368
10.2.1 Google分布式文件系统368
10.2.2 MapReduce系统介绍369
10.2.3 Hadoop分布式文件系统370
10.2.4 Nutch分布式文件系统372
10.2.5 Nutch分布式检索概述372
10.2.6 Nutch分布式检索器375
10.3 Lucene分布式检索376
10.3.1 Socket通信基础376
10.3.2 Lucene索引服务器378
10.4 Nutch与搜索缓存381
10.5开源系统缓存系统383
10.6小结384
第11章Nutch专题搜索引擎实例387
11.1专题搜索需求分析387
11.1.1专题搜索功能需求387
11.1.2专题搜索用例分析388
11.2构建Nutch基础搜索引擎389
11.2.1 Nutch搜索功能分析390
11.2.2信息下载功能测试390
11.2.3 N utch基础Web检索391
11.2.4 Web用户页面修改393
11.3专题搜索系统设计395
11.3.1系统框架设计396
11.3.2选择开发工具组件397
11.4专题关键词管理397
11.4.1专题关键词策略398
11.4.2关键词存储设计398
11.4.3关键词管理程序400
11.5专题资源发现403
11.5.1专题网页链接发现403
11.5.2专题资源网站提取406
11.6专题信息下载407
11.6.1批量信息下载407
11.6.2信息自动下载410
11.7专题信息分析与索引412
11.7.1网页信息分析413
11.7.2创建索引413
11.8检索辅助功能414
11.8.1相关词推荐414
11.8.2检索词高亮显示416
11.8.3检索结果翻页418
11.9小结424
第12章Lucene实现企业搜索实例425
12.1企业搜索需求分析425
12.1.1企业搜索需求概述425
12.1.2企业搜索用例分析426
12.2企业级搜索系统设计427
12.2.1系统框架设计427
12.2.2 Lucene检索框架428
12.3企业级搜索系统设计428
12.3.1创建Lucene工程429
12.3.2全文检索索引生成429
12.3.3全文检索检索页面433
12.4数据引擎设计438
12.4.1数据库数据管理438
12.4.2非结构化文档439
12.5企业信息索引442
12.5.1数据索引建立443
12.5.2信息检索代码447
12.5.3检索Web代码449
12.5.4检索结果测试451
12.6小结452