图书介绍
大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理PDF|Epub|txt|kindle电子书版本网盘下载
![大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理](https://www.shukui.net/cover/30/30907303.jpg)
- 张安站著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111509646
- 出版时间:2015
- 标注页数:202页
- 文件大小:58MB
- 文件页数:218页
- 主题词:数据处理软件
PDF下载
下载说明
大数据技术丛书 Spark技术内幕 深入解析Spark内核架构设计与实现原理PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Spark简介1
1.1 Spark的技术背景1
1.2 Spark的优点2
1.3 Spark架构综述4
1.4 Spark核心组件概述5
1.4.1 Spark Streaming5
1.4.2 MLlib6
1.4.3 Spark SQL7
1.4.4 GraphX8
1.5 Spark的整体代码结构规模8
第2章 Spark学习环境的搭建9
2.1 源码的获取与编译9
2.1.1 源码获取9
2.1.2 源码编译10
2.2 构建Spark的源码阅读环境11
2.3 小结15
第3章 RDD实现详解16
3.1 概述16
3.2 什么是RDD17
3.2.1 RDD的创建19
3.2.2 RDD的转换20
3.2.3 RDD的动作22
3.2.4 RDD的缓存23
3.2.5 RDD的检查点24
3.3 RDD的转换和DAG的生成25
3.3.1 RDD的依赖关系26
3.3.2 DAG的生成30
3.3.3 Word Count的RDD转换和DAG划分的逻辑视图30
3.4 RDD的计算33
3.4.1 Task简介33
3.4.2 Task的执行起点33
3.4.3 缓存的处理35
3.4.4 checkpoint的处理37
3.4.5 RDD的计算逻辑39
3.5 RDD的容错机制39
3.6 小结40
第4章 Scheduler模块详解41
4.1 模块概述41
4.1.1 整体架构41
4.1.2 Scheduler的实现概述43
4.2 DAGScheduler实现详解45
4.2.1 DAGScheduler的创建46
4.2.2 Job的提交48
4.2.3 Stage的划分49
4.2.4 任务的生成54
4.3 任务调度实现详解57
4.3.1 TaskScheduler的创建57
4.3.2 Task的提交概述58
4.3.3 任务调度具体实现61
4.3.4 Task运算结果的处理65
4.4 WordCount调度计算过程详解72
4.5 小结74
第5章 Deploy模块详解76
5.1 Spark运行模式概述76
5.1.1 local77
5.1.2 Mesos78
5.1.3 YARN82
5.2 模块整体架构86
5.3 消息传递机制详解87
5.3.1 Master和Worker87
5.3.2 Master和Client89
5.3.3 Client和Executor91
5.4 集群的启动92
5.4.1 Master的启动92
5.4.2 Worker的启动96
5.5 集群容错处理98
5.5.1 Master异常退出98
5.5.2 Worker异常退出99
5.5.3 Executor异常退出101
5.6 Master HA实现详解102
5.6.1 Master启动的选举和数据恢复策略103
5.6.2 集群启动参数的配置105
5.6.3 Curator Framework简介106
5.6.4 ZooKeeperLeaderElectionAgent的实现109
5.7 小结110
第6章 Executor模块详解112
6.1 Standalone模式的Executor分配详解113
6.1.1 SchedulerBackend创建AppClient114
6.1.2 AppClient向Master注册Application116
6.1.3 Master根据AppClient的提交选择Worker119
6.1.4 Worker根据Master的资源分配结果创建Executor121
6.2 Task的执行122
6.2.1 依赖环境的创建和分发123
6.2.2 任务执行125
6.2.3 任务结果的处理128
6.2.4 Driver端的处理130
6.3 参数设置131
6.3.1 spark.executor.memory131
6.3.2 日志相关132
6.3.3 spark.executor.heartbeatInterval132
6.4 小结133
第7章 Shuffle模块详解134
7.1 Hash Based Shuffle Write135
7.1.1 Basic Shuffle Writer实现解析136
7.1.2 存在的问题138
7.1.3 Shuffle Consolidate Writer139
7.1.4 小结140
7.2 Shuffle Pluggable框架141
7.2.1 org.apache.spark.shuffle.ShuffleManager141
7.2.2 org.apache.spark.shuffle.ShuffleWriter143
7.2.3 org.apache.spark.shuffle.ShuffleBlockManager143
7.2.4 org.apache.spark.shuffle.ShuffleReader144
7.2.5 如何开发自己的Shuffle机制144
7.3 Sort Based Write144
7.4 Shuffle Map Task运算结果的处理148
7.4.1 Executor端的处理148
7.4.2 Driver端的处理150
7.5 Shuffle Read152
7.5.1 整体流程152
7.5.2 数据读取策略的划分155
7.5.3 本地读取156
7.5.4 远程读取158
7.6 性能调优160
7.6.1 spark.shuffle.manager160
7.6.2 spark.shuffle.spill162
7.6.3 spark.shuffle.memoryFraction和spark.shuffle.safetyFraction162
7.6.4 spark.shuffle.sort.bypassMergeThreshold163
7.6.5 spark.shuffle.blockTransferService163
7.6.6 spark.shuffle.consolidateFiles163
7.6.7 spark.shuffle.compress和spark.shuffle.spill.compress164
7.6.8 spark.reducer.maxMbInFlight165
7.7 小结165
第8章 Storage模块详解167
8.1 模块整体架构167
8.1.1 整体架构167
8.1.2 源码组织结构170
8.1.3 Master和Slave的消息传递详解173
8.2 存储实现详解181
8.2.1 存储级别181
8.2.2 模块类图184
8.2.3 org.apache.spark.storage.DiskStore实现详解186
8.2.4 org.apache.spark.storage.MemoryStore实现详解188
8.2.5 org.apache.spark.storage.TachyonStore实现详解189
8.2.6 Block存储的实现190
8.3 性能调优194
8.3.1 spark.local.dir194
8.3.2 spark.executor.memory194
8.3.3 spark.storage.memoryFraction194
8.3.4 spark.streaming.blockInterval195
8.4 小结195
第9章 企业应用概述197
9.1 Spark在百度197
9.1.1 现状197
9.1.2 百度开放BMR的Spark198
9.1.3 在Spark中使用Tachyon199
9.2 Spark在阿里200
9.3 Spark在腾讯200
9.4 小结201