图书介绍

智能搜索引擎技术PDF|Epub|txt|kindle电子书版本网盘下载

智能搜索引擎技术
  • 高琰编著 著
  • 出版社: 长沙:中南大学出版社
  • ISBN:9787548734123
  • 出版时间:2018
  • 标注页数:183页
  • 文件大小:29MB
  • 文件页数:198页
  • 主题词:搜索引擎-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

智能搜索引擎技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 引言1

1.1 信息检索与搜索引擎1

1.2 搜索引擎的历史2

1.3 搜索引擎的分类3

1.4 搜索引擎的基本架构4

1.4.1 主要性能需求5

1.4.2 总体架构6

1.5 搜索引擎的主要组件及其功能7

1.5.1 网络爬虫7

1.5.2 解析器8

1.5.3 索引器9

1.5.4 检索器9

1.5.5 用户交互接口10

1.6 开源搜索引擎10

本章小结12

习题13

第2章 信息采集14

2.1 网络爬虫的概述14

2.1.1 网络爬虫的功能特点14

2.1.2 网络爬虫通用架构15

2.1.3 网络爬虫分类17

2.2 分布式网络爬虫架构18

2.2.1 主从分布式结构爬虫(master-slave)18

2.2.2 对等分布式结构爬虫(peer to peer)19

2.3 信息采集涉及的协议20

2.3.1 URL规范和HTTP协议20

2.3.2 User Agent21

2.3.3 Robots协议22

2.4 页面遍历23

2.4.1 宽度优先遍历策略23

2.4.2 深度优先遍历策略24

2.4.3 重要度优先遍历策略24

2.5 页面更新25

2.5.1 网页更新策略26

2.5.2 爬虫更新方式27

2.6 深网抓取28

2.7 开源网络爬虫30

本章小结31

习题32

第3章 文本处理33

3.1 文本信息提取33

3.1.1 网页数据获取33

3.1.2 非网页的数据获取36

3.2 统计语言模型36

3.2.1 N元模型(N-gram)的基本概念37

3.2.2 数据平滑方法37

3.3 英文分词39

3.3.1 词素切分39

3.3.2 词干提取40

3.3.3 去除停用词41

3.4 中文分词42

3.4.1 中文分词概述42

3.4.2 基于词典的机械分词法43

3.4.3 基于统计的分词法45

3.4.4 分词粒度46

3.5 网页去重46

3.5.1 通用去重算法流程46

3.5.2 Shingling算法47

3.5.3 SimHash算法48

本章小结50

习题51

第4章 搜索引擎索引构建52

4.1 倒排索引52

4.1.1 倒排索引基础52

4.1.2 词典结构54

4.1.3 倒排表结构57

4.2 建立索引方式58

4.2.1 基于内存的索引构建58

4.2.2 基于排序的索引建立60

4.2.3 基于合并法的索引构建61

4.3 索引更新61

4.4 分布式索引63

4.4.1 数据划分63

4.4.2 冗余和容错64

4.4.3 Elastic Search的分布式索引65

4.5 索引压缩66

4.5.1 评价压缩算法的指标66

4.5.2 Delta编码(D-Gaps)66

4.5.3 无参数间距压缩编码67

4.5.4 参数间距压缩69

4.5.5 高查询性能的编码70

本章小结72

习题72

第5章 基于文本内容的检索模型74

5.1 检索模型概述74

5.2 布尔模型75

5.3 向量空间模型76

5.3.1 文本表示76

5.3.2 查询相关度计算79

5.4 概率检索模型81

5.4.1 概率检索模型概述81

5.4.2 二元独立模型(binary independent model)82

5.4.3 BM25模型84

5.4.4 BM25F模型86

5.5 基于统计语言建模的检索模型87

5.6 机器学习排序88

5.6.1 机器学习排序概述88

5.6.2 单文档方法(pointwise approach)89

5.6.3 文档对方法(pairwise approach)89

5.6.4 文档列表方法(listwise approach)90

5.7 检索质量评价标准92

5.7.1 准确率和召回率92

5.7.2 前k个文档的查准率(P@k)93

5.7.3 平均查准率均值(mean average precision,MAP)94

5.7.4 NDCG(normalize DCG)95

本章小结96

习题96

第6章 基于链接的检索模型98

6.1 Web图98

6.2 Page Rank算法99

6.2.1 基于简单模型的Page Rank算法99

6.2.2 基于随机冲浪模型的Page Rank算法102

6.2.3 主题敏感的Page Rank103

6.3 HITS算法105

6.3.1 HITS算法基本思想105

6.3.2 HITS算法流程107

6.3.3 HITS的优势与缺陷108

6.4 SALAS算法109

6.5 通用链接反作弊方法111

6.5.1 链接作弊方法111

6.5.2 反链接作弊思路112

6.5.3 经典链接反作弊算法113

本章小结115

习题115

第7章 查询处理与结果展示116

7.1 查询纠错116

7.1.1 查询纠错概述116

7.1.2 英文纠错117

7.2 搜索智能提示120

7.3 不安全信息过滤122

7.4 查询处理125

7.4.1 “一次一文档”125

7.4.2 “一次一词”127

7.5 结果展示128

7.5.1 页面摘要128

7.5.2 查询结果聚类129

7.6 查询缓存机制131

本章小结132

习题133

第8章 相关反馈与查询扩展134

8.1 相关反馈框架134

8.2 显式相关反馈135

8.2.1 Rocchio相关反馈算法135

8.2.2 概率相关反馈137

8.2.3 相关反馈策略的评价138

8.3 伪相关反馈138

8.4 隐式反馈139

8.5 查询扩展139

本章小结141

习题141

第9章 分类与聚类142

9.1 文本分类142

9.1.1 文本分类框架142

9.1.2 贝叶斯文档分类143

9.1.3 支持向量机146

9.1.4 特征选择148

9.1.5 评价150

9.2 聚类150

9.2.1 划分聚类150

9.2.2 层次聚类152

9.2.3 评价153

本章小结155

习题156

第10章 基于知识图谱的搜索引擎157

10.1 概述157

10.2 知识图谱的数据获取160

10.3 信息抽取161

10.3.1 实体抽取161

10.3.2 关系抽取164

10.3.3 属性抽取166

10.4 知识融合167

10.4.1 实体对齐167

10.4.2 实体歧义分析168

10.5 知识表示与知识推理169

10.5.1 知识表示169

10.5.2 知识推理171

10.6 基于知识图谱的智能搜索引擎173

10.6.1 基于知识图谱的搜索结构173

10.6.2 查询理解174

10.6.3 自动问答176

本章小结177

习题177

参考文献178

热门推荐