图书介绍
Spark高级数据分析PDF|Epub|txt|kindle电子书版本网盘下载
![Spark高级数据分析](https://www.shukui.net/cover/36/30934741.jpg)
- (美)里扎等著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115404749
- 出版时间:2015
- 标注页数:226页
- 文件大小:26MB
- 文件页数:244页
- 主题词:数据处理软件
PDF下载
下载说明
Spark高级数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据分析1
1.1数据科学面临的挑战2
1.2认识Apache Spark4
1.3关于本书5
第2章 用Scala和Spark进行数据分析7
2.1数据科学家的Scala8
2.2 Spark编程模型9
2.3记录关联问题9
2.4小试牛刀:Spark shell和SparkContext10
2.5把数据从集群上获取到客户端15
2.6把代码从客户端发送到集群18
2.7用元组和case class对数据进行结构化19
2.8聚合23
2.9创建直方图24
2.10连续变量的概要统计25
2.11为计算概要信息创建可重用的代码26
2.12变量的选择和评分简介30
2.13小结31
第3章 音乐推荐和Audioscrobbler数据集33
3.1数据集34
3.2交替最小二乘推荐算法35
3.3准备数据37
3.4构建第一个模型39
3.5逐个检查推荐结果42
3.6评价推荐质量43
3.7计算AUC44
3.8选择超参数46
3.9产生推荐48
3.10小结49
第4章 用决策树算法预测森林植被51
4.1回归简介52
4.2向量和特征52
4.3样本训练53
4.4决策树和决策森林54
4.5 Covtype数据集56
4.6准备数据57
4.7第一棵决策树58
4.8决策树的超参数62
4.9决策树调优63
4.10重谈类别型特征65
4.11随机决策森林67
4.12进行预测69
4.13小结69
第5章 基于K均值聚类的网络流量异常检测71
5.1异常检测72
5.2 K均值聚类72
5.3网络入侵73
5.4 KDD Cup 1999数据集73
5.5初步尝试聚类74
5.6 K的选择76
5.7基于R的可视化79
5.8特征的规范化81
5.9类别型变量83
5.10利用标号的熵信息84
5.11聚类实战85
5.12小结86
第6章 基于潜在语义分析算法分析维基百科89
6.1词项-文档矩阵90
6.2获取数据91
6.3分析和准备数据92
6.4词形归并93
6.5计算TF-1 DF94
6.6奇异值分解97
6.7找出重要的概念98
6.8基于低维近似的查询和评分101
6.9词项-词项相关度102
6.10文档-文档相关度103
6.11词项-文档相关度105
6.12多词项查询106
6.13小结107
第7章 用GraphX分析伴生网络109
7.1对MEDLINE文献引用索引的网络分析110
7.2获取数据111
7.3用Scala XML工具解析XML文档113
7.4分析MeSH主要主题及其伴生关系114
7.5用GraphX来建立一个伴生网络116
7.6理解网络结构119
7.6.1连通组件119
7.6.2度的分布122
7.7过滤噪声边124
7.7.1处理EdgeTriplet125
7.7.2分析去掉噪声边的子图126
7.8小世界网络127
7.8.1系和聚类系数128
7.8.2用Pregel计算平均路径长度129
7.9小结133
第8章 纽约出租车轨迹的空间和时间数据分析135
8.1数据的获取136
8.2基于Spark的时间和空间数据分析136
8.3基于JodaTime和NScalaTime的时间数据处理137
8.4基于Esri Geometry API和Spray的地理空间数据处理138
8.4.1认识Esri Geometry API139
8.4.2 GeoJSON简介140
8.5纽约市出租车客运数据的预处理142
8.5.1大规模数据中的非法记录处理143
8.5.2地理空间分析147
8.6基于Spark的会话分析149
8.7小结153
第9章 基于蒙特卡罗模拟的金融风险评估155
9.1术语156
9.2 VaR计算方法157
9.2.1方差-协方差法157
9.2.2历史模拟法157
9.2.3蒙特卡罗模拟法157
9.3我们的模型158
9.4获取数据158
9.5数据预处理159
9.6确定市场因素的权重162
9.7采样164
9.8运行试验167
9.9回报分布的可视化170
9.10结果的评估171
9.11小结173
第10章 基因数据分析和BDG项目175
10.1分离存储与模型176
10.2用ADAM CLI导入基因学数据178
10.3从ENCODE数据预测转录因子结合位点185
10.4查询1000 Genomes项目中的基因型191
10.5小结193
第11章 基于PySpark和Thunder的神经图像数据分析195
11.1 PySpark简介196
11.2 Thunder工具包概况和安装199
11.3用Thunder加载数据200
11.4用Thunder对神经元进行分类207
11.5小结211
附录A Spark进阶213
附录B 即将发布的MLlib Pipelines API221
作者介绍226
封面介绍226