图书介绍

信息检索 实现和评价搜索引擎PDF|Epub|txt|kindle电子书版本网盘下载

信息检索 实现和评价搜索引擎
  • (美)布切尔等著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111359906
  • 出版时间:2012
  • 标注页数:412页
  • 文件大小:49MB
  • 文件页数:428页
  • 主题词:情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

信息检索 实现和评价搜索引擎PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 基础知识1

第1章 绪论1

1.1什么是信息检索1

1.1.1 Web搜索1

1.1.2其他搜索应用2

1.1.3其他信息检索应用2

1.2信息检索系统3

1.2.1信息检索系统基础架构3

1.2.2文档及其更新5

1.2.3性能评价5

1.3使用电子文本6

1.3.1文本格式6

1.3.2英文文本中的分词9

1.3.3词项分布10

1.3.4语言模型11

1.4测试集16

1.5开源信息检索系统18

1.5.1 Lucene19

1.5.2 Indri19

1.5.3 Wumpus19

1.6延伸阅读20

1.7练习21

1.8参考文献22

第2章 基础技术23

2.1倒排索引23

2.1.1延伸例子:词组查找24

2.1.2实现倒排索引27

2.1.3文档和其他元素31

2.2检索与排名36

2.2.1向量空间模型38

2.2.2邻近度排名42

2.2.3布尔检索44

2.3评价46

2.3.1查全率和查准率46

2.3.2排名检索的有效性指标47

2.3.3创建测试集51

2.3.4效率指标52

2.4总结53

2.5延伸阅读54

2.6练习55

2.7参考文献56

第3章 词条与词项58

3.1英语58

3.1.1标点与大写59

3.1.2词干提取60

3.1.3停词62

3.2字符63

3.3字符n-gram64

3.4欧洲语言65

3.5 CJK语言66

3.6延伸阅读67

3.7练习68

3.8参考文献69

第二部分 索引71

第4章 静态倒排索引71

4.1索引的组成部分和索引的生命周期71

4.2词典72

4.3位置信息列表75

4.4交错词典和位置信息列表78

4.5索引的构建81

4.5.1基于内存的索引构建法82

4.5.2基于排序的索引构建法85

4.5.3基于合并的索引构建法87

4.6其他索引90

4.7总结90

4.8延伸阅读91

4.9练习91

4.10参考文献92

第5章 查询处理94

5.1排名检索的查询处理94

5.1.1 document-at-a-time查询处理95

5.1.2 term-at-a-time查询处理99

5.1.3预计算得分贡献103

5.1.4影响力排序104

5.1.5静态索引裁剪105

5.2轻量级结构109

5.2.1广义索引表110

5.2.2操作符111

5.2.3例子112

5.2.4实现113

5.3延伸阅读115

5.4练习116

5.5参考文献117

第6章 索引压缩119

6.1通用数据压缩119

6.2符号数据压缩120

6.2.1建模和编码121

6.2.2哈夫曼编码123

6.2.3算术编码126

6.2.4基于符号的文本压缩129

6.3压缩位置信息列表130

6.3.1无参数间距压缩131

6.3.2参数间距压缩133

6.3.3上下文感知的压缩方法137

6.3.4高查询性能的索引压缩139

6.3.5压缩效果142

6.3.6解码性能145

6.3.7文档重排146

6.4压缩词典147

6.5总结151

6.6延伸阅读152

6.7练习152

6.8参考文献153

第7章 动态倒排索引155

7.1批量更新155

7.2增量式索引更新157

7.2.1连续倒排列表158

7.2.2非连续倒排列表163

7.3文档删除165

7.3.1无效列表165

7.3.2垃圾回收166

7.4文档修改170

7.5讨论及延伸阅读171

7.6练习172

7.7参考文献172

第三部分 检索和排名174

第8章 概率检索174

8.1相关性建模174

8.2二元独立模型176

8.3 Robertson/Sparck Jones权重公式177

8.4词频179

8.4.1 Bookstein的双泊松模型180

8.4.2双泊松模型的近似182

8.4.3查询词频183

8.5文档长度:BM25183

8.6相关反馈184

8.6.1词项选择185

8.6.2伪相关反馈186

8.7区域权重:BM25F187

8.8实验对比189

8.9延伸阅读189

8.10练习190

8.11参考文献191

第9章 语言模型及其相关方法194

9.1从文档中产生查询194

9.2语言模型和平滑196

9.3使用语言模型排名198

9.4 Kullback-Leibler距离200

9.5随机差异性202

9.5.1一个随机模型203

9.5.2精华性204

9.5.3文档长度规范化204

9.6段落检索及排名205

9.6.1段落评分206

9.6.2实现206

9.7实验对比207

9.8延伸阅读207

9.9练习208

9.10参考文献208

第10章 分类和过滤210

10.1详细示例212

10.1.1面向主题的批过滤212

10.1.2在线过滤215

10.1.3从历史样本中学习216

10.1.4语言分类217

10.1.5在线自适应垃圾邮件过滤系统220

10.1.6二元分类的阈值选择223

10.2分类225

10.2.1比值和比值比226

10.2.2构造分类器228

10.2.3学习模型229

10.2.4特征工程230

10.3概率分类器231

10.3.1概率估计231

10.3.2联合概率估计235

10.3.3实际考虑237

10.4线性分类器239

10.4.1感知器算法241

10.4.2支持向量机241

10.5基于相似度的分类器242

10.5.1 Rocchio法242

10.5.2基于记忆的方法243

10.6广义线性模型243

10.7信息理论模型246

10.7.1模型比较246

10.7.2序列压缩模型247

10.7.3决策树与树桩249

10.8实验对比251

10.8.1面向主题的在线过滤器251

10.8.2在线自适应垃圾信息过滤253

10.9延伸阅读254

10.10练习255

10.11参考文献256

第11章 融合和元学习258

11.1搜索结果融合259

11.1.1固定临界值合成260

11.1.2排名和得分合成261

11.2叠加自适应过滤器262

11.3叠加批分类器263

11.3.1 holdout验证264

11.3.2交叉验证264

11.4 bagging265

11.5 boosting266

11.6多类排名和分类267

11.6.1文档得分与类别得分267

11.6.2文档排名融合与类别排名融合268

11.6.3多类方法269

11.7学习排名272

11.7.1什么是学习排名272

11.7.2学习排名的方法273

11.7.3优化什么273

11.7.4分类的学习排名274

11.7.5排名检索的学习274

11.7.6 LETOR数据集275

11.8延伸阅读276

11.9练习277

11.10参考文献277

第四部分 评价279

第12章度量有效性279

12.1传统的有效性指标279

12.1.1查全率和查准率280

12.1.2前k个文档的查准率(P@k)280

12.1.3平均查准率281

12.1.4排名倒数281

12.1.5算术平均与几何平均281

12.1.6用户满意度282

12.2 TREC282

12.3在评价中使用统计283

12.3.1基础和术语284

12.3.2置信区间286

12.3.3比较评价292

12.3.4被认为有害的假设检验294

12.3.5配对和未配对差值295

12.3.6显著性检验296

12.3.7统计检验的效度和检验力299

12.3.8报告指标的查准率302

12.3.9元分析303

12.4最小化判定工作304

12.4.1为判定选择合适的文档305

12.4.2对池进行抽样309

12.5非传统的有效性指标311

12.5.1分级相关性311

12.5.2不完整判定和偏差判定313

12.5.3新颖性和多样性314

12.6延伸阅读318

12.7练习319

12.8参考文献320

第13章 度量效率324

13.1效率标准324

13.1.1吞吐量和延迟325

13.1.2汇总统计和用户满意度327

13.2排队论327

13.2.1肯德尔符号328

13.2.2M/M/1排队模型329

13.2.3延迟量和平均利用率330

13.3查询调度331

13.4缓存332

13.4.1三级缓存332

13.4.2缓存策略334

13.4.3预取搜索结果335

13.5延伸阅读335

13.6练习335

13.7参考文献336

第五部分 应用和扩展338

第14章 并行信息检索338

14.1并行查询处理338

14.1.1文档划分339

14.1.2词项划分341

14.1.3混合方案343

14.1.4 冗余和容错343

14.2 MapReduce345

14.2.1基本框架345

14.2.2合并347

14.2.3辅助关键字347

14.2.4机器失效347

14.3延伸阅读348

14.4练习349

14.5参考文献349

第15章 Web搜索351

15.1 Web的结构351

15.1.1 Web图352

15.1.2静态与动态网页353

15.1.3暗网353

15.1.4 Web的规模354

15.2查询与用户355

15.2.1用户意图355

15.2.2点击曲线357

15.3静态排名357

15.3.1基本PageRank358

15.3.2扩展的PageRank362

15.3.3 PageRank的性质366

15.3.4其他链接分析方法:HITS和SALSA369

15.3.5其他静态排名方法371

15.4动态排名371

15.4.1锚文本372

15.4.2新颖性373

15.5评价Web搜索373

15.5.1指定页面发现374

15.5.2用户隐式反馈375

15.6 Web爬虫376

15.6.1爬虫的组成377

15.6.2抓取顺序380

15.6.3重复与近似重复381

15.7总结383

15.8延伸阅读384

15.8.1链接分析384

15.8.2锚文本385

15.8.3隐式反馈386

15.8.4 Web爬虫386

15.9练习386

15.10参考文献387

第16章 XML检索392

16.1 XML的本质393

16.1.1文档类型定义395

16.1.2 XML模式396

16.2路径、树和FLWOR396

16.2.1 XPath396

16.2.2 NEXI397

16.2.3 XQuery398

16.3索引和查询处理399

16.4排名检索401

16.4.1排名元素402

16.4.2重叠元素403

16.4.3可检索元素404

16.5评价404

16.5.1测试集404

16.5.2有效性指标405

16.6延伸阅读405

16.7练习407

16.8参考文献407

第六部分 附录410

附录A 计算机性能410

热门推荐