图书介绍
Spark编程基础 Scala edition Scala版PDF|Epub|txt|kindle电子书版本网盘下载
- 林子雨,赖永炫,陶继平编著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115488169
- 出版时间:2018
- 标注页数:246页
- 文件大小:46MB
- 文件页数:257页
- 主题词:数据处理软件
PDF下载
下载说明
Spark编程基础 Scala edition Scala版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据技术概述1
1.1 大数据的概念与关键技术2
1.1.1 大数据的概念2
1.1.2 大数据关键技术2
1.2 代表性大数据技术4
1.2.1 Hadoop4
1.2.2 Spark8
1.2.3 Flink10
1.2.4 Beam11
1.3 编程语言的选择12
1.4 在线资源13
1.5 本章小结14
1.6 习题14
实验1 Linux系统的安装和常用命令15
一、实验目的15
二、实验平台15
三、实验内容和要求15
四、实验报告16
第2章 Scala语言基础17
2.1 Scala语言概述18
2.1.1 计算机的缘起18
2.1.2 编程范式19
2.1.3 Scala简介20
2.1.4 Scala的安装21
2.1.5 Hello World21
2.2 Scala基础知识23
2.2.1 基本数据类型和变量23
2.2.2 输入/输出26
2.2.3 控制结构28
2.2.4 数据结构31
2.3 面向对象编程基础37
2.3.1 类37
2.3.2 对象42
2.3.3 继承47
2.3.4 参数化类型50
2.3.5 特质52
2.3.6 模式匹配55
2.3.7 包58
2.4 函数式编程基础59
2.4.1 函数的定义与使用60
2.4.2 高阶函数61
2.4.3 闭包62
2.4.4 偏应用函数和Curry化62
2.4.5 针对容器的操作64
2.4.6 函数式编程实例69
2.5 本章小结70
2.6 习题70
实验2 Scala编程初级实践71
一、实验目的71
二、实验平台71
三、实验内容和要求72
四、实验报告75
第3章 Spark的设计与运行原理76
3.1 概述77
3.2 Spark生态系统78
3.3 Spark运行架构79
3.3.1 基本概念79
3.3.2 架构设计80
3.3.3 Spark运行基本流程81
3.3.4 RDD的设计与运行原理82
3.4 Spark的部署方式91
3.5 本章小结92
3.6 习题93
第4章 Spark环境搭建和使用方法94
4.1 安装Spark95
4.1.1 基础环境95
4.1.2 下载安装文件95
4.1.3 配置相关文件96
4.1.4 Spark和Hadoop的交互97
4.2 在spark-shell中运行代码97
4.2.1 spark-shell命令98
4.2.2 启动spark-shell99
4.3 开发Spark独立应用程序99
4.3.1 安装编译打包工具100
4.3.2 编写Spark应用程序代码101
4.3.3 编译打包101
4.3.4 通过spark-submit运行程序104
4.4 Spark集群环境搭建104
4.4.1 集群概况105
4.4.2 搭建Hadoop集群105
4.4.3 在集群中安装Spark106
4.4.4 配置环境变量106
4.4.5 Spark的配置106
4.4.6 启动Spark集群107
4.4.7 关闭Spark集群107
4.5 在集群上运行Spark应用程序108
4.5.1 启动Spark集群108
4.5.2 采用独立集群管理器108
4.5.3 采用Hadoop YARN管理器109
4.6 本章小结110
4.7 习题111
实验3 Spark和Hadoop的安装111
一、实验目的111
二、实验平台111
三、实验内容和要求111
四、实验报告112
第5章 RDD编程113
5.1 RDD编程基础114
5.1.1 RDD创建114
5.1.2 RDD操作115
5.1.3 持久化121
5.1.4 分区122
5.1.5 一个综合实例126
5.2 键值对RDD128
5.2.1 键值对RDD的创建128
5.2.2 常用的键值对转换操作129
5.2.3 一个综合实例133
5.3 数据读写134
5.3.1 文件数据读写135
5.3.2 读写HBase数据137
5.4 综合实例141
5.4.1 求TOP值141
5.4.2 文件排序143
5.4.3 二次排序144
5.5 本章小结146
实验4 RDD编程初级实践146
一、实验目的146
二、实验平台146
三、实验内容和要求146
四、实验报告148
第6章 Spark SQL149
6.1 Spark SQL简介150
6.1.1 从Shark说起150
6.1.2 Spark SQL架构151
6.1.3 为什么推出Spark SQL152
6.2 DataFrame概述152
6.3 DataFrame的创建153
6.4 DataFrame的保存154
6.5 DataFrame的常用操作155
6.6 从RDD转换得到DataFrame156
6.6.1 利用反射机制推断RDD模式157
6.6.2 使用编程方式定义RDD模式158
6.7 使用Spark SQL读写数据库160
6.7.1 通过JDBC连接数据库160
6.7.2 连接Hive读写数据162
6.8 本章小结166
6.9 习题166
实验5 Spark SQL编程初级实践167
一、实验目的167
二、实验平台167
三、实验内容和要求167
四、实验报告168
第7章 Spark Streaming169
7.1 流计算概述170
7.1.1 静态数据和流数据170
7.1.2 批量计算和实时计算171
7.1.3 流计算概念171
7.1.4 流计算框架172
7.1.5 流计算处理流程173
7.2 Spark Streaming174
7.2.1 Spark Streaming设计174
7.2.2 Spark Streaming与Storm的对比175
7.2.3 从“Hadoop+Storm”架构转向Spark架构176
7.3 DStream操作概述177
7.3.1 Spark Streaming工作机制177
7.3.2 编写Spark Streaming程序的基本步骤178
7.3.3 创建StreamingContext对象178
7.4 基本输入源179
7.4.1 文件流179
7.4.2 套接字流181
7.4.3 RDD队列流186
7.5 高级数据源187
7.5.1 Kafka简介188
7.5.2 Kafka准备工作188
7.5.3 Spark准备工作189
7.5.4 编写Spark Streaming程序使用Kafka数据源190
7.6 转换操作194
7.6.1 DStream无状态转换操作194
7.6.2 DStream有状态转换操作195
7.7 输出操作199
7.7.1 把DStream输出到文本文件中199
7.7.2 把DStream写入到关系数据库中200
7.8 本章小结202
7.9 习题202
实验6 Spark Streaming编程初级实践203
一、实验目的203
二、实验平台203
三、实验内容和要求203
四、实验报告204
第8章 Spark MLlib205
8.1 基于大数据的机器学习206
8.2 机器学习库MLlib概述207
8.3 基本数据类型208
8.3.1 本地向量208
8.3.2 标注点208
8.3.3 本地矩阵209
8.4 机器学习流水线210
8.4.1 流水线的概念210
8.4.2 流水线工作过程211
8.5 特征提取、转换和选择212
8.5.1 特征提取213
8.5.2 特征转换215
8.5.3 特征选择220
8.5.4 局部敏感哈希221
8.6 分类算法222
8.6.1 逻辑斯蒂回归分类器222
8.6.2 决策树分类器226
8.7 聚类算法229
8.7.1 K-Means聚类算法230
8.7.2 GMM聚类算法232
8.8 协同过滤算法234
8.8.1 推荐算法的原理235
8.8.2 ALS算法235
8.9 模型选择和超参数调整239
8.9.1 模型选择工具239
8.9.2 用交叉验证选择模型240
8.10 本章小结242
8.11 习题242
实验7 Spark机器学习库MLlib编程实践243
一、实验目的243
二、实验平台243
三、实验内容和要求243
四、实验报告244
参考文献245