图书介绍

PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署PDF|Epub|txt|kindle电子书版本网盘下载

PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署
  • (美)托马兹·卓巴斯,丹尼·李著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:7111582380
  • 出版时间:2017
  • 标注页数:186页
  • 文件大小:23MB
  • 文件页数:203页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 了解Spark1

1.1 什么是Apache Spark1

1.2 Spark作业和API2

1.2.1 执行过程2

1.2.2 弹性分布式数据集3

1.2.3 DataFrame4

1.2.4 Dataset5

1.2.5 Catalyst优化器5

1.2.6 钨丝计划5

1.3 Spark 2.0的架构6

1.3.1 统一Dataset和DataFrame7

1.3.2 SparkSession介绍8

1.3.3 Tungsten Phase 28

1.3.4 结构化流10

1.3.5 连续应用10

1.4 小结11

第2章 弹性分布式数据集12

2.1 RDD的内部运行方式12

2.2 创建RDD13

2.2.1 Schema14

2.2.2 从文件读取14

2.2.3 Lambda表达式15

2.3 全局作用域和局部作用域16

2.4 转换17

2.4.1 .map(...)转换17

2.4.2 .filter(...)转换18

2.4.3 .flatMap(...)转换18

2.4.4 .distinct(...)转换18

2.4.5 .sample(...)转换19

2.4.6 .leftOuterJoin(...)转换19

2.4.7 .repartition(...)转换20

2.5 操作20

2.5.1 .take(...)方法21

2.5.2 .collect(...)方法21

2.5.3 .reduce(...)方法21

2.5.4 .count(...)方法22

2.5.5 .saveAsTextFile(...)方法22

2.5.6 .foreach(...)方法23

2.6 小结23

第3章 DataFrame24

3.1 Python到RDD之间的通信24

3.2 Catalyst优化器刷新25

3.3 利用DataFrame加速PySpark27

3.4 创建DataFrame28

3.4.1 生成自己的JSON数据29

3.4.2 创建一个DataFrame29

3.4.3 创建一个临时表30

3.5 简单的DataFrame查询31

3.5.1 DataFrame API查询32

3.5.2 SQL查询32

3.6 RDD的交互操作33

3.6.1 使用反射来推断模式33

3.6.2 编程指定模式34

3.7 利用DataFrame API查询35

3.7.1 行数35

3.7.2 运行筛选语句35

3.8 利用SQL查询36

3.8.1 行数36

3.8.2 利用where子句运行筛选语句36

3.9 DataFrame场景——实时飞行性能38

3.9.1 准备源数据集38

3.9.2 连接飞行性能和机场39

3.9.3 可视化飞行性能数据40

3.10 Spark数据集(Dataset)API41

3.11 小结42

第4章 准备数据建模43

4.1 检查重复数据、未观测数据和异常数据(离群值)43

4.1.1 重复数据43

4.1.2 未观测数据46

4.1.3 离群值50

4.2 熟悉你的数据51

4.2.1 描述性统计52

4.2.2 相关性54

4.3 可视化55

4.3.1 直方图55

4.3.2 特征之间的交互58

4.4 小结60

第5章 MLlib介绍61

5.1 包概述61

5.2 加载和转换数据62

5.3 了解你的数据65

5.3.1 描述性统计66

5.3.2 相关性67

5.3.3 统计测试69

5.4 创建最终数据集70

5.4.1 创建LabeledPoint形式的RDD70

5.4.2 分隔培训和测试数据71

5.5 预测婴儿生存机会71

5.5.1 MLlib中的逻辑回归71

5.5.2 只选择最可预测的特征72

5.5.3 MLlib中的随机森林73

5.6 小结74

第6章 ML包介绍75

6.1 包的概述75

6.1.1 转换器75

6.1.2 评估器78

6.1.3 管道80

6.2 使用ML预测婴儿生存几率80

6.2.1 加载数据80

6.2.2 创建转换器81

6.2.3 创建一个评估器82

6.2.4 创建一个管道82

6.2.5 拟合模型83

6.2.6 评估模型的性能84

6.2.7 保存模型84

6.3 超参调优85

6.3.1 网格搜索法85

6.3.2 Train-validation划分88

6.4 使用PySpark ML的其他功能89

6.4.1 特征提取89

6.4.2 分类93

6.4.3 聚类95

6.4.4 回归98

6.5 小结99

第7章 GraphFrames100

7.1 GraphFrames介绍102

7.2 安装GraphFrames102

7.2.1 创建库103

7.3 准备你的航班数据集105

7.4 构建图形107

7.5 执行简单查询108

7.5.1 确定机场和航班的数量108

7.5.2 确定这个数据集中的最长延误时间108

7.5.3 确定延误和准点/早到航班的数量对比109

7.5.4 哪一班从西雅图出发的航班最有可能出现重大延误109

7.5.5 西雅图出发到哪个州的航班最有可能出现重大延误110

7.6 理解节点的度110

7.7 确定最大的中转机场112

7.8 理解Motif113

7.9 使用PageRank确定机场排名114

7.10 确定最受欢迎的直飞航班115

7.11 使用广度优先搜索116

7.12 使用D3将航班可视化118

7.13 小结119

第8章 TensorFrames120

8.1 深度学习是什么120

8.1.1 神经网络和深度学习的必要性123

8.1.2 特征工程是什么125

8.1.3 桥接数据和算法125

8.2 TensorFlow是什么127

8.2.1 安装PIP129

8.2.2 安装TensorFlow129

8.2.3 使用常量进行矩阵乘法130

8.2.4 使用placeholder进行矩阵乘法131

8.2.5 讨论132

8.3 TensorFrames介绍133

8.4 TensorFrames快速入门134

8.4.1 配置和设置134

8.4.2 使用TensorFlow向已有列添加常量136

8.4.3 Blockwise reducing操作示例137

8.5 小结139

第9章 使用Blaze实现混合持久化141

9.1 安装Blaze141

9.2 混合持久化142

9.3 抽象数据143

9.3.1 使用NumPy数组143

9.3.2 使用pandas的DataFrame145

9.3.3 使用文件145

9.3.4 使用数据库147

9.4 数据操作149

9.4.1 访问列150

9.4.2 符号转换150

9.4.3 列的操作151

9.4.4 降阶数据152

9.4.5 连接154

9.5 小结156

第10章 结构化流157

10.1 什么是Spark Streaming157

10.2 为什么需要Spark Streaming159

10.3 Spark Streaming应用程序数据流是什么160

10.4 使用DStream简化Streaming应用程序161

10.5 全局聚合快速入门165

10.6 结构化流介绍168

10.7 小结172

第11章 打包Spark应用程序173

11.1 spark-submit命令173

11.2 以编程方式部署应用程序176

11.2.1 配置你的SparkSession176

11.2.2 创建SparkSession177

11.2.3 模块化代码177

11.2.4 提交作业180

11.2.5 监控执行182

11.3 Databricks作业184

11.4 小结186

热门推荐