图书介绍

大数据技术丛书 Spark技术内幕深入解析Spark内核架构设计与实现原理PDF|Epub|txt|kindle电子书版本网盘下载

张安站著著
出版社：北京：机械工业出版社
ISBN：9787111509646
出版时间：2015
标注页数：202页
文件大小：58MB
文件页数：218页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：002946691dd72235a234ec34c968c015

下载说明

大数据技术丛书 Spark技术内幕深入解析Spark内核架构设计与实现原理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 Spark简介1

1.1 Spark的技术背景1

1.2 Spark的优点2

1.3 Spark架构综述4

1.4 Spark核心组件概述5

1.4.1 Spark Streaming5

1.4.2 MLlib6

1.4.3 Spark SQL7

1.4.4 GraphX8

1.5 Spark的整体代码结构规模8

第2章 Spark学习环境的搭建9

2.1 源码的获取与编译9

2.1.1 源码获取9

2.1.2 源码编译10

2.2 构建Spark的源码阅读环境11

2.3 小结15

第3章 RDD实现详解16

3.1 概述16

3.2 什么是RDD17

3.2.1 RDD的创建19

3.2.2 RDD的转换20

3.2.3 RDD的动作22

3.2.4 RDD的缓存23

3.2.5 RDD的检查点24

3.3 RDD的转换和DAG的生成25

3.3.1 RDD的依赖关系26

3.3.2 DAG的生成30

3.3.3 Word Count的RDD转换和DAG划分的逻辑视图30

3.4 RDD的计算33

3.4.1 Task简介33

3.4.2 Task的执行起点33

3.4.3 缓存的处理35

3.4.4 checkpoint的处理37

3.4.5 RDD的计算逻辑39

3.5 RDD的容错机制39

3.6 小结40

第4章 Scheduler模块详解41

4.1 模块概述41

4.1.1 整体架构41

4.1.2 Scheduler的实现概述43

4.2 DAGScheduler实现详解45

4.2.1 DAGScheduler的创建46

4.2.2 Job的提交48

4.2.3 Stage的划分49

4.2.4 任务的生成54

4.3 任务调度实现详解57

4.3.1 TaskScheduler的创建57

4.3.2 Task的提交概述58

4.3.3 任务调度具体实现61

4.3.4 Task运算结果的处理65

4.4 WordCount调度计算过程详解72

4.5 小结74

第5章 Deploy模块详解76

5.1 Spark运行模式概述76

5.1.1 local77

5.1.2 Mesos78

5.1.3 YARN82

5.2 模块整体架构86

5.3 消息传递机制详解87

5.3.1 Master和Worker87

5.3.2 Master和Client89

5.3.3 Client和Executor91

5.4 集群的启动92

5.4.1 Master的启动92

5.4.2 Worker的启动96

5.5 集群容错处理98

5.5.1 Master异常退出98

5.5.2 Worker异常退出99

5.5.3 Executor异常退出101

5.6 Master HA实现详解102

5.6.1 Master启动的选举和数据恢复策略103

5.6.2 集群启动参数的配置105

5.6.3 Curator Framework简介106

5.6.4 ZooKeeperLeaderElectionAgent的实现109

5.7 小结110

第6章 Executor模块详解112

6.1 Standalone模式的Executor分配详解113

6.1.1 SchedulerBackend创建AppClient114

6.1.2 AppClient向Master注册Application116

6.1.3 Master根据AppClient的提交选择Worker119

6.1.4 Worker根据Master的资源分配结果创建Executor121

6.2 Task的执行122

6.2.1 依赖环境的创建和分发123

6.2.2 任务执行125

6.2.3 任务结果的处理128

6.2.4 Driver端的处理130

6.3 参数设置131

6.3.1 spark.executor.memory131

6.3.2 日志相关132

6.3.3 spark.executor.heartbeatInterval132

6.4 小结133

第7章 Shuffle模块详解134

7.1 Hash Based Shuffle Write135

7.1.1 Basic Shuffle Writer实现解析136

7.1.2 存在的问题138

7.1.3 Shuffle Consolidate Writer139

7.1.4 小结140

7.2 Shuffle Pluggable框架141

7.2.1 org.apache.spark.shuffle.ShuffleManager141

7.2.2 org.apache.spark.shuffle.ShuffleWriter143

7.2.3 org.apache.spark.shuffle.ShuffleBlockManager143

7.2.4 org.apache.spark.shuffle.ShuffleReader144

7.2.5 如何开发自己的Shuffle机制144

7.3 Sort Based Write144

7.4 Shuffle Map Task运算结果的处理148

7.4.1 Executor端的处理148

7.4.2 Driver端的处理150

7.5 Shuffle Read152

7.5.1 整体流程152

7.5.2 数据读取策略的划分155

7.5.3 本地读取156

7.5.4 远程读取158

7.6 性能调优160

7.6.1 spark.shuffle.manager160

7.6.2 spark.shuffle.spill162

7.6.3 spark.shuffle.memoryFraction和spark.shuffle.safetyFraction162

7.6.4 spark.shuffle.sort.bypassMergeThreshold163

7.6.5 spark.shuffle.blockTransferService163

7.6.6 spark.shuffle.consolidateFiles163

7.6.7 spark.shuffle.compress和spark.shuffle.spill.compress164

7.6.8 spark.reducer.maxMbInFlight165

7.7 小结165

第8章 Storage模块详解167

8.1 模块整体架构167

8.1.1 整体架构167

8.1.2 源码组织结构170

8.1.3 Master和Slave的消息传递详解173

8.2 存储实现详解181

8.2.1 存储级别181

8.2.2 模块类图184

8.2.3 org.apache.spark.storage.DiskStore实现详解186

8.2.4 org.apache.spark.storage.MemoryStore实现详解188

8.2.5 org.apache.spark.storage.TachyonStore实现详解189

8.2.6 Block存储的实现190

8.3 性能调优194

8.3.1 spark.local.dir194

8.3.2 spark.executor.memory194

8.3.3 spark.storage.memoryFraction194

8.3.4 spark.streaming.blockInterval195

8.4 小结195

第9章企业应用概述197

9.1 Spark在百度197

9.1.1 现状197

9.1.2 百度开放BMR的Spark198

9.1.3 在Spark中使用Tachyon199

9.2 Spark在阿里200

9.3 Spark在腾讯200

9.4 小结201

图书介绍

大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理PDF|Epub|txt|kindle电子书版本网盘下载

PDF下载

下载说明

大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理PDF格式电子书版下载

图书目录

热门推荐

大数据技术丛书 Spark技术内幕深入解析Spark内核架构设计与实现原理PDF|Epub|txt|kindle电子书版本网盘下载

大数据技术丛书 Spark技术内幕深入解析Spark内核架构设计与实现原理PDF格式电子书版下载