图书介绍

中文文本聚类研究PDF|Epub|txt|kindle电子书版本网盘下载

中文文本聚类研究
  • 龚静著 著
  • 出版社: 北京:中国传媒大学出版社
  • ISBN:756570444X
  • 出版时间:2012
  • 标注页数:203页
  • 文件大小:32MB
  • 文件页数:214页
  • 主题词:自然语言处理-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

中文文本聚类研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1 文本挖掘1

1.1.1 文本挖掘的定义1

1.1.2 文本挖掘的内容2

1.1.3 文本挖掘的特点4

1.1.4 常用文本挖掘技术4

1.1.5 文本挖掘中面临的问题5

1.2 文本聚类7

1.2.1 聚类的概念7

1.2.2 文本聚类8

1.2.3 文本聚类的应用12

1.2.4 中文文本聚类过程13

1.2.5 文本聚类研究的难点14

1.2.6 文本聚类研究进展15

1.3 文本相似度衡量17

1.3.1 文档与文档之间的相似度度量17

1.3.2 文档集合与文档集合之间的相似度度量19

1.3.3 文档与文档集合之间的相似度度量20

1.4 文本聚类结果的评价方法20

1.4.1 基于人工判定的指标21

1.4.2 基于目标函数的指标22

第2章 中文文本的数学描述25

2.1 文本预处理25

2.1.1 文本预处理概述25

2.1.2 文本预处理的过程26

2.2 中文文本特征项的表示方法26

2.2.1 基于字的特征表示法27

2.2.2 基于词的特征表示法28

2.2.3 基于概念的特征项表示法28

2.2.4 基于短语的特征表示法29

2.2.5 基于N-Grams的特征表示法29

2.3 中文分词30

2.3.1 分词的概念30

2.3.2 中文分词难点31

2.3.3 分词算法33

2.3.4 中文分词衡量的指标36

2.3.5 中文分词系统37

2.4 数据清洗39

2.4.1 停用词过滤39

2.4.2 同义词归并40

2.5 文本表示模型41

2.5.1 布尔逻辑模型41

2.5.2 向量空间模型42

2.5.3 模糊逻辑模型46

2.5.4 概率模型46

2.5.5 语言模型46

第3章 词语权重计算方法48

3.1 基于频率特性的单词权重计算方法48

3.1.1 布尔函数48

3.1.2 特征项频率49

3.1.3 对数函数49

3.1.4 反文档频率49

3.1.5 TF-IDF函数50

3.1.6 四种基于频率特性的单词权重计算方法比较51

3.2 基于语义的特征项加权方法53

3.2.1 基于词语语义的加权方法53

3.2.2 基于词语间的语义关系的加权方法55

3.2.3 基于多重因子加权的权值计算方法62

3.2.4 基于单种语义的加权方法与基于多重因子加权方法比较64

第4章 特征降维方法66

4.1 特征降维66

4.1.1 特征降维概述66

4.1.2 特征降维技术67

4.2 特征选择68

4.2.1 特征选择的定义68

4.2.2 特征选择原则69

4.2.3 特征选择的过程70

4.2.4 特征选择算法70

4.2.5 几种新的用于文本聚类的特征选择方法75

4.3 特征抽取90

4.3.1 特征抽取概述90

4.3.2 特征抽取方法91

4.3.3 一种基于知网的特征抽取方法98

第5章 文本聚类算法104

5.1 聚类算法的分类104

5.1.1 划分聚类算法104

5.1.2 层次聚类算法105

5.1.3 基于密度的聚类算法106

5.1.4 基于网格的聚类算法107

5.1.5 基于模型的聚类算法108

5.1.6 基于概念的聚类算法108

5.1.7 基于短文本的聚类算法109

5.1.8 其他聚类算法110

5.2 如何选择具体的聚类算法110

5.2.1 聚类的类型111

5.2.2 簇的类型及特征111

5.2.3 噪声和离群点的考虑111

5.2.4 数据对象的个数112

5.3 常用的中文文本聚类算法113

5.3.1 基于密度的文本聚类算法113

5.3.2 基于划分的文本聚类算法117

5.3.3 基于层次的文本聚类算法120

5.3.4 基于网格的算法124

5.3.5 基于模型的算法127

5.3.6 其他聚类算法136

5.3.7 基于人工免疫的文本聚类算法151

第6章 文本聚类算法的改进157

6.1 k-means算法改进157

6.1.1 k-means算法存在的不足157

6.1.2 一种基于层次聚类的k-means算法158

6.2 DBSACAN算法改进163

6.2.1 DBSCAN算法存在的不足163

6.2.2 DETC文本聚类算法163

6.3 模糊C均值聚类算法改进169

6.3.1 模糊C均值聚类算法解析169

6.3.2 基于遗传算法的文本模糊聚类方法FCMGO170

6.4 自组织特征映射算法(SOM)改进176

6.4.1 SOM算法不足分析176

6.4.2 一种动态SOM的增量中文文本聚类方法176

6.5 蚁群算法的改进183

6.5.1 蚁群算法存在的不足183

6.5.2 一种改进的蚁群算法183

附录 中英文关键词对照表188

参考文献190

热门推荐