图书介绍
预测性文本挖掘基础PDF|Epub|txt|kindle电子书版本网盘下载
![预测性文本挖掘基础](https://www.shukui.net/cover/15/30321064.jpg)
- (美)韦斯,(美)张潼,(澳)因杜尔亚著;赵仲孟,侯迪译 著
- 出版社: 西安:西安交通大学出版社
- ISBN:9787560544274
- 出版时间:2012
- 标注页数:234页
- 文件大小:56MB
- 文件页数:251页
- 主题词:数据采集-研究
PDF下载
下载说明
预测性文本挖掘基础PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 文本挖掘概述1
1.1 文本挖掘有什么特别之处?1
1.1.1 结构化或非结构化数据?2
1.1.2 文本数据是否不同于数值数据?3
1.2 文本挖掘可以解决什么类型的问题?5
1.3 文本分类6
1.4 信息检索7
1.5 文档聚类与组织8
1.6 信息提取9
1.7 预测与评估10
1.8 下一章内容10
1.9 小结11
1.10 历史与文献评述11
1.11 问题与练习12
第2章 从文本信息到数值向量13
2.1 文档收集13
2.2 文档标准化15
2.3 标记化17
2.4 词形转化20
2.4.1 词干变形20
2.4.2 化词干为词根21
2.5 预测向量生成22
2.5.1 多词特征28
2.5.2 正确答案的标签30
2.5.3 通过属性分级选择特征31
2.6 语句边界确定32
2.7 词性标签化33
2.8 词义消歧35
2.9 短语识别35
2.10 命名实体识别36
2.11 语法分析36
2.12 特征生成38
2.13 小结39
2.14 历史与文献评述40
2.15 课后练习42
第3章 用文本进行预测43
3.1 识别文档符合模式45
3.2 需要多少文档才可以满足预测需求?47
3.3 文档分类48
3.4 从文本中学习预测49
3.4.1 相似性与最近邻法50
3.4.2 文档相似性51
3.4.3 决策规则53
3.4.4 决策树59
3.4.5 概率估计61
3.4.6 线性评分方法63
3.5 性能评估72
3.5.1 当前与未来的性能估计72
3.5.2 从学习方法中获取最大收益74
3.6 应用75
3.7 小结75
3.8 历史与文献评述76
3.9 问题与练习78
第4章 信息检索和文本挖掘79
4.1 信息检索是文本挖掘的一种形式吗?79
4.2 关键字搜索80
4.3 最近邻法81
4.4 度量相似度82
4.4.1 相同单词计数82
4.4.2 单词计数和奖励83
4.4.3 余弦相似度84
4.5 基于Web的文档搜索85
4.5.1 链接分析86
4.6 文档匹配90
4.7 反向列表90
4.8 性能评估93
4.9 小结94
4.10 历史与文献评述94
4.11 问题与练习95
第5章 文档集的结构发现96
5.1 基于相似性的文档聚类98
5.2 复合文档的相似度99
5.2.1 k-means聚类101
5.2.2 分层聚类105
5.2.3 EM算法107
5.3 聚类标记有什么含义?111
5.4 应用113
5.5 性能评价114
5.6 小结116
5.7 历史与文献评述116
5.8 问题与练习118
第6章 在文档中查询信息119
6.1 信息提取的目标119
6.2 发现文本模式和实体122
6.2.1 实体提取作为序列标签122
6.2.2 标签预测作为分类123
6.2.3 最大熵方法125
6.2.4 语言特征和编码130
6.2.5 局部序列预测模型132
6.2.6 全局序列预测模型135
6.3 共指和关系提取137
6.3.1 共指消解137
6.3.2 关系提取139
6.4 模板填充和数据库构建140
6.5 应用141
6.5.1 信息检索141
6.5.2 商业化提取系统142
6.5.3 犯罪学143
6.5.4 情报工作143
6.6 总结145
6.7 历史与文献评述145
6.8 问题与练习147
第7章 面向预测的数据源:数据库、混杂数据与Web148
7.1 数据的理想化模型148
7.1.1 预测的理想化数据148
7.1.2 理想的文本数据与非结构化数据149
7.1.3 混杂数据与混合数据150
7.2 实际数据源151
7.3 原型化实例153
7.3.1 基于Web的电子表格数据153
7.3.2 基于Web的XML数据154
7.3.3 观点数据与情绪分析157
7.4 混杂数据实例:独立来源的数值数据与文本数据159
7.5 采用标准表格格式的混合数据161
7.6 总结163
7.7 历史与文献评述163
7.8 问题与练习164
第8章 实例分析165
8.1 互联网市场调研165
8.1.1 问题描述165
8.1.2 解决概览166
8.1.3 方法与过程167
8.1.4 系统部署168
8.2 面向数字图书馆的轻型文档匹配169
8.2.1 问题描述169
8.2.2 解决概览170
8.2.3 方法与过程171
8.2.4 系统部署172
8.3 生成帮助桌面应用的模本范例173
8.3.1 问题描述173
8.3.2 解决概览174
8.3.3 方法与过程174
8.3.4 系统部署176
8.4 新闻文章主题指定176
8.4.1 问题描述176
8.4.2 解决概览177
8.4.3 方法与过程178
8.4.4 系统部署181
8.5 邮件过滤181
8.5.1 问题描述181
8.5.2 解决概览182
8.5.3 方法与过程183
8.5.4 系统部署184
8.6 搜索引擎185
8.6.1 问题描述185
8.6.2 解决概览185
8.6.3 方法与过程186
8.6.4 系统部署187
8.7 文档中命名实体提取188
8.7.1 问题描述188
8.7.2 解决概览189
8.7.3 方法与过程189
8.7.4 系统部署191
8.8 个性化报纸192
8.8.1 问题描述192
8.8.2 解决概览193
8.8.3 方法与过程193
8.8.4 系统部署194
8.9 总结195
8.10 历史与文献评述195
8.11 问题与练习196
第9章 新研究方向197
9.1 摘要197
9.2 主动学习200
9.3 使用未标记的数据学习202
9.4 收集文档样本的不同途径202
9.4.1 文档集合与投票方法203
9.4.2 在线学习204
9.4.3 代价敏感学习206
9.4.4 不稳定样本与罕见事件207
9.5 分布式文本挖掘207
9.6 学习排序209
9.7 问答系统210
9.8 总结212
9.9 历史与文献评述212
9.10 问题与练习214
附录A 软件说明215
A.1 软件概要215
A.2 系统需求216
A.3 下载说明216
参考文献217
作者索引225
主题索引229