图书介绍
大数据应用与技术丛书 数据挖掘与预测分析 第2版PDF|Epub|txt|kindle电子书版本网盘下载
- (美)DanielT.Larose,(美)ChantalD.Larose著;王念滨,宋敏,裴大茗译 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302459873
- 出版时间:2017
- 标注页数:725页
- 文件大小:239MB
- 文件页数:747页
- 主题词:数据采集
PDF下载
下载说明
大数据应用与技术丛书 数据挖掘与预测分析 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第Ⅰ部分 数据准备3
第1章 数据挖掘与预测分析概述3
1.1 什么是数据挖掘和预测分析3
1.2 需求:数据挖掘技术人员4
1.3 数据挖掘离不开人的参与5
1.4 跨行业数据挖掘标准过程:CRISP-DM6
1.5 数据挖掘的谬误8
1.6 数据挖掘能够完成的任务9
1.6.1 描述9
1.6.2 评估10
1.6.3 预测11
1.6.4 分类11
1.6.5 聚类13
1.6.6 关联14
R语言开发园地15
R参考文献16
练习16
第2章 数据预处理17
2.1 需要预处理数据的原因17
2.2 数据清理18
2.3 处理缺失数据19
2.4 识别错误分类22
2.5 识别离群值的图形方法22
2.6 中心和散布度量24
2.7 数据变换26
2.8 min-max规范化26
2.9 Z-score标准化27
2.10 小数定标规范化28
2.11 变换为正态数据28
2.12 识别离群值的数值方法34
2.13 标志变量35
2.14 将分类变量转换为数值变量35
2.15 数值变量分箱36
2.16 对分类变量重新划分类别37
2.17 添加索引字段37
2.18 删除无用变量38
2.19 可能不应该删除的变量38
2.20 删除重复记录39
2.21 ID字段简述39
R语言开发园地39
R参考文献45
练习45
第3章 探索性数据分析49
3.1 假设检验与探索性数据分析49
3.2 了解数据集49
3.3 探索分类变量52
3.4 探索数值变量58
3.5 探索多元关系62
3.6 选择感兴趣的数据子集作进一步研究64
3.7 使用EDA发现异常字段64
3.8 基于预测值分级65
3.9 派生新变量:标志变量67
3.10 派生新变量:数值变量69
3.11 使用EDA探测相关联的预测变量70
3.12 EDA概述73
R语言开发园地73
R参考文献80
练习80
第4章 降维方法83
4.1 数据挖掘中降维的必要性83
4.2 主成分分析84
4.3 将主成分分析应用于房屋数据集87
4.4 应提取多少个主成分91
4.4.1 特征值标准91
4.4.2 解释变异的比例标准92
4.4.3 最小共性标准92
4.4.4 坡度图标准92
4.5 主成分描述94
4.6 共性96
4.7 主成分验证97
4.8 因子分析法98
4.9 因子分析法在成年人数据集中的应用99
4.10 因子旋转101
4.11 用户自定义合成104
4.12 用户自定义合成的示例105
R语言开发园地106
R参考文献110
练习111
第Ⅱ部分 统计分析117
第5章 单变量统计分析117
5.1 数据知识发现中的数据挖掘任务117
5.2 用于估计和预测的统计方法117
5.3 统计推理118
5.4 我们对评估的确信程度如何119
5.5 均值的置信区间估计120
5.6 如何减少误差范围121
5.7 比例的置信区间估计122
5.8 均值的假设检验123
5.9 拒绝零假设的证据力度的评估125
5.10 使用置信区间执行假设检验126
5.11 比例的假设检验127
R语言开发园地128
R参考文献129
练习129
第6章 多元统计133
6.1 描述均值差异的两样例t-检验方法133
6.2 判断总体差异的两样例Z-检验134
6.3 比例均匀性的测试135
6.4 多元数据拟合情况的卡方检验137
6.5 方差分析138
R语言开发园地141
R参考文献143
练习143
第7章 数据建模准备145
7.1 有监督学习与无监督学习145
7.2 统计方法与数据挖掘方法146
7.3 交叉验证146
7.4 过度拟合147
7.5 偏差-方差权衡148
7.6 平衡训练数据集150
7.7 建立基线性能151
R语言开发园地152
R参考文献153
练习153
第8章 简单线性回归155
8.1 简单线性回归示例155
8.2 外推的危险161
8.3 回归有用吗?系数的确定162
8.4 估计标准误差166
8.5 相关系数r167
8.6 简单线性回归的方差分析表169
8.7 离群点、高杠杆率点与有影响的观察点170
8.8 回归方程概括178
8.9 回归假设验证179
8.10 回归推理184
8.11 x与y之间关系的t-检验185
8.12 回归直线斜率的置信区间187
8.13 相关系数ρ的置信区间188
8.14 给定均值的置信区间190
8.15 给定随机选择值的预测区间191
8.16 获得线性特性的变换194
8.17 博克斯-考克斯变换199
R语言开发园地199
R参考文献205
练习205
第9章 多元回归与模型构建213
9.1 多元回归示例213
9.2 总体多元回归方程218
9.3 多元回归推理219
9.3.1 y与xi之间关系的t-检验219
9.3.2 营养等级与含糖量之间关系的t-检验220
9.3.3 营养等级与纤维含量之间关系的t-检验220
9.3.4 总体回归模型显著性的F-检验221
9.3.5 营养等级与含糖量和纤维含量之间关系的F-检验222
9.3.6 特定系数βi的置信区间223
9.3.7 (在给定x1,x2,...,xm的情况下)y的均值的置信区间223
9.3.8 (在给定x1,x2,...,xm的情况下)随机选择的y值的预测区间223
9.4 利用指示变量的包含范畴型预测变量的回归224
9.5 调整R2:惩罚包含无用预测变量的模型230
9.6 序列平方和231
9.7 多重共线性233
9.8 变量选择方法239
9.8.1 有偏F-检验239
9.8.2 前向选择过程240
9.8.3 反向删除过程241
9.8.4 逐步选择过程241
9.8.5 最佳子集过程241
9.8.6 “所有可能子集”过程242
9.9 油耗数据集242
9.10 变量选择方法的应用243
9.10.1 应用于油耗数据集的前向选择过程244
9.10.2 应用于油耗数据集的后向删除过程245
9.10.3 应用于油耗数据集的逐步选择过程246
9.10.4 应用于油耗数据集的最佳子集过程246
9.10.5 Mallows’Cp统计量247
9.11 将主成分作为预测变量进行多元回归251
R语言开发园地255
R参考文献265
练习265
第Ⅲ部分 分类273
第10章 K-最近邻算法273
10.1 分类任务273
10.2 k-最近邻算法274
10.3 距离函数276
10.4 组合函数279
10.4.1 简单权重投票方式279
10.4.2 加权投票279
10.5 量化属性的相关性:轴伸缩280
10.6 数据库方面的考虑281
10.7 将k-最近邻算法用于评估和预测281
10.8 k值的选择282
10.9 利用IBM/SPSS建模工具应用k-最近邻算法283
R语言开发园地284
R参考文献286
练习286
第11章 决策树289
11.1 决策树是什么289
11.2 使用决策树的要求291
11.3 分类与回归树291
11.4 C4.5算法297
11.5 决策规则302
11.6 比较C5.0和CART算法应用到实际的数据303
R语言开发园地306
R参考文献307
练习308
第12章 神经元网络311
12.1 输入和输出编码312
12.2 神经元网络用于评估和预测313
12.3 神经元网络的简单示例314
12.4 sigmoid激活函数316
12.5 反向传播317
12.6 梯度下降法317
12.7 反向传播规则318
12.8 反向传播示例319
12.9 终止条件320
12.10 学习率321
12.11 动量项322
12.12 敏感性分析323
12.13 神经元网络建模应用324
R语言开发园地326
R参考文献328
练习328
第13章 logistic回归331
13.1 logistic回归简单示例331
13.2 最大似然估计333
13.3 解释logistic回归的输出334
13.4 推理:这些预测有显著性吗335
13.5 概率比比率与相对风险337
13.6 对二分logistic回归预测的解释339
13.7 对应用于多元预测变量的logistic回归的解释342
13.8 对应用于连续型预测变量的logistic回归的解释346
13.9 线性假设351
13.10 零单元问题353
13.11 多元logistic回归355
13.12 引入高阶项处理非线性359
13.13 logistic回归模型的验证366
13.14 WEKA:应用logistic回归的实践分析370
R语言开发园地374
R参考文献380
练习380
第14章 朴素贝叶斯与贝叶斯网络385
14.1 贝叶斯方法385
14.2 最大后验(MAP)分类387
14.3 后验概率比391
14.4 数据平衡393
14.5 朴素贝叶斯分类394
14.6 解释对数后验概率比397
14.7 零单元问题398
14.8 朴素贝叶斯分类中的数值型预测变量399
14.9 WEKA:使用朴素贝叶斯开展分析402
14.10 贝叶斯信念网络406
14.11 衣物购买示例407
14.12 利用贝叶斯网络发现概率409
R语言开发园地413
R参考文献417
练习417
第15章 模型评估技术421
15.1 用于描述任务的模型评估技术421
15.2 用于评估和预测任务的模型评估技术422
15.3 用于分类任务的模型评估方法423
15.4 准确率和总误差率425
15.5 灵敏性和特效性426
15.6 假正类率和假负类率427
15.7 真正类、真负类、假正类、假负类的比例427
15.8 通过误分类成本调整来反映现实关注点429
15.9 决策成本/效益分析430
15.10 提升图表和增益图表431
15.11 整合模型评估与模型建立434
15.12 结果融合:应用一系列模型435
R语言开发园地436
R参考文献436
练习437
第16章 基于数据驱动成本的成本-效益分析439
16.1 在行调整条件下的决策不变性439
16.2 正分类标准440
16.3 正分类标准的示范442
16.4 构建成本矩阵444
16.5 在缩放条件下的决策不变性445
16.6 直接成本和机会成本446
16.7 案例研究:基于数据驱动误分类成本的成本-效益分析446
16.8 再平衡作为误分类成本的代理450
R语言开发园地452
R参考文献455
练习455
第17章 三元和k元分类模型的成本-效益分析459
17.1 三元目标的分类评估变量459
17.2 三元分类评估度量在贷款审批问题中的应用462
17.3 三元贷款分类问题的数据驱动成本-效益分析466
17.4 比较使用/不使用数据驱动误分类成本的CART模型467
17.5 一般的k元目标的分类评估度量470
17.6 k元分类中评估度量和数据驱动误分类成本的示例472
R语言开发园地474
R参考文献475
练习475
第18章 分类模型的图形化评估477
18.1 回顾提升图表和增益图表477
18.2 使用误分类成本的提升图表和增益图表477
18.3 响应图表479
18.4 利润图表479
18.5 投资回报(ROI)图表482
R语言开发园地482
R参考文献484
练习484
第Ⅳ部分 聚类489
第19章 层次聚类和k-均值聚类489
19.1 聚类任务489
19.2 层次聚类方法491
19.3 单一链聚类492
19.4 完全链聚类493
19.5 k-均值聚类494
19.6 k-均值聚类实操示例495
19.7 k-均值算法执行中MSB、MSE和伪-F的行为498
19.8 SAS Enterprise Miner中k-均值算法的应用499
19.9 使用簇成员关系来预测客户流失501
R语言开发园地502
R参考文献503
练习504
第20章 Kohonen网络505
20.1 自组织映射505
20.2 Kohonen网络507
20.3 Kohonen网络学习示例508
20.4 簇有效性511
20.5 使用Kohonen网络进行聚类应用511
20.6 解释簇512
20.7 将簇成员关系作为下游数据挖掘模型的输入517
R语言开发园地518
R参考文献520
练习520
第21章 BIRCH聚类521
21.1 BIRCH聚类的理论基础521
21.2 簇特征522
21.3 簇特征树523
21.4 阶段1:构建CF树523
21.5 阶段2:聚类子簇525
21.6 BIRCH聚类示例之阶段1:构建CF树525
21.7 BIRCH聚类示例之阶段2:聚类子簇530
21.8 候选聚类解决方案的评估530
21.9 案例研究:在银行贷款数据集上应用BIRCH聚类531
21.9.1 案例研究第1课:对于任意聚类算法避免高度相关的输入532
21.9.2 案例研究第2课:不同的排序可能会导致不同的簇数目535
R语言开发园地537
R参考文献538
练习538
第22章 度量簇的优劣541
22.1 度量簇优劣的基本原理541
22.2 轮廓方法541
22.3 轮廓值示例542
22.4 Iris数据集的轮廓值分析544
22.5 伪-F统计方法547
22.6 伪-F统计示例549
22.7 将伪-F统计应用于Iris数据集550
22.8 簇验证551
22.9 将簇验证方法应用于贷款数据集551
R语言开发园地554
R参考文献556
练习557
第Ⅴ部分 关联规则561
第23章 关联规则561
23.1 亲和度分析与购物篮分析561
23.2 支持度、可信度、频繁项集和先验属性564
23.3 先验算法工作原理(第1部分)——建立频繁项集565
23.4 先验算法工作原理(第2部分)——建立关联规则566
23.5 从标志数据扩展到分类数据569
23.6 信息理论方法:广义规则推理方法570
23.7 关联规则不易做好571
23.8 度量关联规则可用性的方法573
23.9 关联规则是监督学习还是无监督学习574
23.10 局部模式与全局模型574
R语言开发园地575
R参考文献575
练习576
第Ⅵ部分 增强模型性能581
第24章 细分模型581
24.1 细分建模过程581
24.2 利用EDA识别分段的细分建模583
24.3 利用聚类方法识别分段的细分建模585
R语言开发园地589
R参考文献591
练习591
第25章 集成方法:bagging和boosting593
25.1 使用集成分类模型的理由593
25.2 偏差、方差与噪声594
25.3 适合采用bagging的场合595
25.4 bagging596
25.5 boosting599
25.6 使用IBM/SPSS建模器应用bagging和boosting602
参考文献603
R语言开发园地604
R参考文献605
练习606
第26章 模型投票与趋向平均609
26.1 简单模型投票609
26.2 其他投票方法610
26.3 模型投票过程611
26.4 模型投票的应用612
26.5 什么是趋向平均616
26.6 趋向平均过程616
26.7 趋向平均的应用618
R语言开发园地619
R参考文献621
练习622
第Ⅶ部分 更多主题627
第27章 遗传算法627
27.1 遗传算法简介627
27.2 基因算法的基本框架628
27.3 遗传算法的简单示例629
27.3.1 第1次迭代629
27.3.2 第2次迭代631
27.4 改进及增强:选择631
27.5 改进及增强:交叉633
27.5.1 多点交叉633
27.5.2 通用交叉634
27.6 实值变量的遗传算法634
27.6.1 单一算术交叉635
27.6.2 简单算术交叉635
27.6.3 完全算术交叉635
27.6.4 离散交叉635
27.6.5 正态分布突变635
27.7 利用遗传算法训练神经元网络636
27.8 WEKA:使用遗传算法进行分析640
R语言开发园地646
R参考文献647
练习647
第28章 缺失数据的填充649
28.1 缺失数据填充的必要性649
28.2 缺失数据填充:连续型变量650
28.3 填充的标准误差653
28.4 缺失值填充:范畴型变量653
28.5 缺失的处理模式654
参考文献655
R语言开发园地655
R参考文献657
练习658
第Ⅷ部分 案例研究:对直邮营销的响应预测661
第29章 案例研究,第1部分:业务理解、数据预处理和探索性数据分析661
29.1 数据挖掘的跨行业标准661
29.2 业务理解阶段662
29.3 数据理解阶段,第一部分:熟悉数据集663
29.4 数据准备阶段667
29.4.1 消费金额为负值的情况667
29.4.2 实现正态性或对称性的转换669
29.4.3 标准化671
29.4.4 派生新变量671
29.5 数据理解阶段,第二部分:探索性数据分析674
29.5.1 探索预测因子和响应之间的关系674
29.5.2 研究预测因子间的相关性结构679
29.5.3 逆转换对于解释的重要性682
第30章 案例研究,第2部分:聚类与主成分分析685
30.1 数据划分685
30.2 制定主成分686
30.3 验证主成分689
30.4 主成分概括691
30.5 利用BIRCH聚类算法选择最优聚类数694
30.6 利用k均值聚类算法选择最优聚类数695
30.7 k-均值聚类应用696
30.8 验证聚类697
30.9 聚类概括698
第31章 案例研究,第3部分:建模与评估性能和可解释性699
31.1 选择性能最佳模型,还是既要性能又要可解释性699
31.2 建模与评估概述700
31.3 利用数据驱动开销开展损益分析700
31.4 输入到模型中的变量702
31.5 建立基线模型性能703
31.6 利用误分类开销的模型704
31.7 需要用代理调整误分类开销的模型705
31.8 采用投票和趋向平均方法合并模型706
31.9 对利润最佳模型的解释707
第32章 案例研究,第4部分:高性能建模与评估709
32.1 输入到模型中的变量709
32.2 使用误分类开销的模型710
32.3 需要作为误分类开销代理调整的模型710
32.4 使用投票和趋向平均的合并模型711
32.5 经验总结713
32.6 总结713
附录A 数据汇总与可视化715