图书介绍
信息检索 实现和评价搜索引擎PDF|Epub|txt|kindle电子书版本网盘下载
![信息检索 实现和评价搜索引擎](https://www.shukui.net/cover/24/33406602.jpg)
- (美)布切尔等著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111359906
- 出版时间:2012
- 标注页数:412页
- 文件大小:49MB
- 文件页数:428页
- 主题词:情报检索
PDF下载
下载说明
信息检索 实现和评价搜索引擎PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 基础知识1
第1章 绪论1
1.1什么是信息检索1
1.1.1 Web搜索1
1.1.2其他搜索应用2
1.1.3其他信息检索应用2
1.2信息检索系统3
1.2.1信息检索系统基础架构3
1.2.2文档及其更新5
1.2.3性能评价5
1.3使用电子文本6
1.3.1文本格式6
1.3.2英文文本中的分词9
1.3.3词项分布10
1.3.4语言模型11
1.4测试集16
1.5开源信息检索系统18
1.5.1 Lucene19
1.5.2 Indri19
1.5.3 Wumpus19
1.6延伸阅读20
1.7练习21
1.8参考文献22
第2章 基础技术23
2.1倒排索引23
2.1.1延伸例子:词组查找24
2.1.2实现倒排索引27
2.1.3文档和其他元素31
2.2检索与排名36
2.2.1向量空间模型38
2.2.2邻近度排名42
2.2.3布尔检索44
2.3评价46
2.3.1查全率和查准率46
2.3.2排名检索的有效性指标47
2.3.3创建测试集51
2.3.4效率指标52
2.4总结53
2.5延伸阅读54
2.6练习55
2.7参考文献56
第3章 词条与词项58
3.1英语58
3.1.1标点与大写59
3.1.2词干提取60
3.1.3停词62
3.2字符63
3.3字符n-gram64
3.4欧洲语言65
3.5 CJK语言66
3.6延伸阅读67
3.7练习68
3.8参考文献69
第二部分 索引71
第4章 静态倒排索引71
4.1索引的组成部分和索引的生命周期71
4.2词典72
4.3位置信息列表75
4.4交错词典和位置信息列表78
4.5索引的构建81
4.5.1基于内存的索引构建法82
4.5.2基于排序的索引构建法85
4.5.3基于合并的索引构建法87
4.6其他索引90
4.7总结90
4.8延伸阅读91
4.9练习91
4.10参考文献92
第5章 查询处理94
5.1排名检索的查询处理94
5.1.1 document-at-a-time查询处理95
5.1.2 term-at-a-time查询处理99
5.1.3预计算得分贡献103
5.1.4影响力排序104
5.1.5静态索引裁剪105
5.2轻量级结构109
5.2.1广义索引表110
5.2.2操作符111
5.2.3例子112
5.2.4实现113
5.3延伸阅读115
5.4练习116
5.5参考文献117
第6章 索引压缩119
6.1通用数据压缩119
6.2符号数据压缩120
6.2.1建模和编码121
6.2.2哈夫曼编码123
6.2.3算术编码126
6.2.4基于符号的文本压缩129
6.3压缩位置信息列表130
6.3.1无参数间距压缩131
6.3.2参数间距压缩133
6.3.3上下文感知的压缩方法137
6.3.4高查询性能的索引压缩139
6.3.5压缩效果142
6.3.6解码性能145
6.3.7文档重排146
6.4压缩词典147
6.5总结151
6.6延伸阅读152
6.7练习152
6.8参考文献153
第7章 动态倒排索引155
7.1批量更新155
7.2增量式索引更新157
7.2.1连续倒排列表158
7.2.2非连续倒排列表163
7.3文档删除165
7.3.1无效列表165
7.3.2垃圾回收166
7.4文档修改170
7.5讨论及延伸阅读171
7.6练习172
7.7参考文献172
第三部分 检索和排名174
第8章 概率检索174
8.1相关性建模174
8.2二元独立模型176
8.3 Robertson/Sparck Jones权重公式177
8.4词频179
8.4.1 Bookstein的双泊松模型180
8.4.2双泊松模型的近似182
8.4.3查询词频183
8.5文档长度:BM25183
8.6相关反馈184
8.6.1词项选择185
8.6.2伪相关反馈186
8.7区域权重:BM25F187
8.8实验对比189
8.9延伸阅读189
8.10练习190
8.11参考文献191
第9章 语言模型及其相关方法194
9.1从文档中产生查询194
9.2语言模型和平滑196
9.3使用语言模型排名198
9.4 Kullback-Leibler距离200
9.5随机差异性202
9.5.1一个随机模型203
9.5.2精华性204
9.5.3文档长度规范化204
9.6段落检索及排名205
9.6.1段落评分206
9.6.2实现206
9.7实验对比207
9.8延伸阅读207
9.9练习208
9.10参考文献208
第10章 分类和过滤210
10.1详细示例212
10.1.1面向主题的批过滤212
10.1.2在线过滤215
10.1.3从历史样本中学习216
10.1.4语言分类217
10.1.5在线自适应垃圾邮件过滤系统220
10.1.6二元分类的阈值选择223
10.2分类225
10.2.1比值和比值比226
10.2.2构造分类器228
10.2.3学习模型229
10.2.4特征工程230
10.3概率分类器231
10.3.1概率估计231
10.3.2联合概率估计235
10.3.3实际考虑237
10.4线性分类器239
10.4.1感知器算法241
10.4.2支持向量机241
10.5基于相似度的分类器242
10.5.1 Rocchio法242
10.5.2基于记忆的方法243
10.6广义线性模型243
10.7信息理论模型246
10.7.1模型比较246
10.7.2序列压缩模型247
10.7.3决策树与树桩249
10.8实验对比251
10.8.1面向主题的在线过滤器251
10.8.2在线自适应垃圾信息过滤253
10.9延伸阅读254
10.10练习255
10.11参考文献256
第11章 融合和元学习258
11.1搜索结果融合259
11.1.1固定临界值合成260
11.1.2排名和得分合成261
11.2叠加自适应过滤器262
11.3叠加批分类器263
11.3.1 holdout验证264
11.3.2交叉验证264
11.4 bagging265
11.5 boosting266
11.6多类排名和分类267
11.6.1文档得分与类别得分267
11.6.2文档排名融合与类别排名融合268
11.6.3多类方法269
11.7学习排名272
11.7.1什么是学习排名272
11.7.2学习排名的方法273
11.7.3优化什么273
11.7.4分类的学习排名274
11.7.5排名检索的学习274
11.7.6 LETOR数据集275
11.8延伸阅读276
11.9练习277
11.10参考文献277
第四部分 评价279
第12章度量有效性279
12.1传统的有效性指标279
12.1.1查全率和查准率280
12.1.2前k个文档的查准率(P@k)280
12.1.3平均查准率281
12.1.4排名倒数281
12.1.5算术平均与几何平均281
12.1.6用户满意度282
12.2 TREC282
12.3在评价中使用统计283
12.3.1基础和术语284
12.3.2置信区间286
12.3.3比较评价292
12.3.4被认为有害的假设检验294
12.3.5配对和未配对差值295
12.3.6显著性检验296
12.3.7统计检验的效度和检验力299
12.3.8报告指标的查准率302
12.3.9元分析303
12.4最小化判定工作304
12.4.1为判定选择合适的文档305
12.4.2对池进行抽样309
12.5非传统的有效性指标311
12.5.1分级相关性311
12.5.2不完整判定和偏差判定313
12.5.3新颖性和多样性314
12.6延伸阅读318
12.7练习319
12.8参考文献320
第13章 度量效率324
13.1效率标准324
13.1.1吞吐量和延迟325
13.1.2汇总统计和用户满意度327
13.2排队论327
13.2.1肯德尔符号328
13.2.2M/M/1排队模型329
13.2.3延迟量和平均利用率330
13.3查询调度331
13.4缓存332
13.4.1三级缓存332
13.4.2缓存策略334
13.4.3预取搜索结果335
13.5延伸阅读335
13.6练习335
13.7参考文献336
第五部分 应用和扩展338
第14章 并行信息检索338
14.1并行查询处理338
14.1.1文档划分339
14.1.2词项划分341
14.1.3混合方案343
14.1.4 冗余和容错343
14.2 MapReduce345
14.2.1基本框架345
14.2.2合并347
14.2.3辅助关键字347
14.2.4机器失效347
14.3延伸阅读348
14.4练习349
14.5参考文献349
第15章 Web搜索351
15.1 Web的结构351
15.1.1 Web图352
15.1.2静态与动态网页353
15.1.3暗网353
15.1.4 Web的规模354
15.2查询与用户355
15.2.1用户意图355
15.2.2点击曲线357
15.3静态排名357
15.3.1基本PageRank358
15.3.2扩展的PageRank362
15.3.3 PageRank的性质366
15.3.4其他链接分析方法:HITS和SALSA369
15.3.5其他静态排名方法371
15.4动态排名371
15.4.1锚文本372
15.4.2新颖性373
15.5评价Web搜索373
15.5.1指定页面发现374
15.5.2用户隐式反馈375
15.6 Web爬虫376
15.6.1爬虫的组成377
15.6.2抓取顺序380
15.6.3重复与近似重复381
15.7总结383
15.8延伸阅读384
15.8.1链接分析384
15.8.2锚文本385
15.8.3隐式反馈386
15.8.4 Web爬虫386
15.9练习386
15.10参考文献387
第16章 XML检索392
16.1 XML的本质393
16.1.1文档类型定义395
16.1.2 XML模式396
16.2路径、树和FLWOR396
16.2.1 XPath396
16.2.2 NEXI397
16.2.3 XQuery398
16.3索引和查询处理399
16.4排名检索401
16.4.1排名元素402
16.4.2重叠元素403
16.4.3可检索元素404
16.5评价404
16.5.1测试集404
16.5.2有效性指标405
16.6延伸阅读405
16.7练习407
16.8参考文献407
第六部分 附录410
附录A 计算机性能410