图书介绍

图灵程序设计丛书 精通HadoopPDF|Epub|txt|kindle电子书版本网盘下载

图灵程序设计丛书 精通Hadoop
  • (印)卡伦斯著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115411051
  • 出版时间:2016
  • 标注页数:250页
  • 文件大小:77MB
  • 文件页数:269页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

图灵程序设计丛书 精通HadoopPDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Hadoop 2.X1

1.1 Hadoop的起源1

1.2 Hadoop的演进2

1.3 Hadoop 2.X6

1.3.1 Yet Another Resource Negotiator(YARN)7

1.3.2 存储层的增强8

1.3.3 支持增强11

1.4 Hadoop的发行版11

1.4.1 选哪个Hadoop发行版12

1.4.2 可用的发行版14

1.5 小结16

第2章 MapReduce进阶17

2.1 MapReduce输入18

2.1.1 InputFormat类18

2.1.2 InputSplit类18

2.1.3 RecordReader类19

2.1.4 Hadoop的“小文件”问题20

2.1.5 输入过滤24

2.2 Map任务27

2.2.1 dfs.blocksize属性28

2.2.2 中间输出结果的排序与溢出28

2.2.3 本地reducer和Combiner31

2.2.4 获取中间输出结果——Map侧31

2.3 Reduce任务32

2.3.1 获取中间输出结果——Reduce侧32

2.3.2 中间输出结果的合并与溢出33

2.4 MapReduce的输出34

2.5 MapReduce作业的计数器34

2.6 数据连接的处理36

2.6.1 Reduce侧的连接36

2.6.2 Map侧的连接42

2.7 小结45

第3章 Pig进阶47

3.1 Pig对比SQL48

3.2 不同的执行模式48

3.3 Pig的复合数据类型49

3.4 编译Pig脚本50

3.4.1 逻辑计划50

3.4.2 物理计划51

3.4.3 MapReduce计划52

3.5 开发和调试助手52

3.5.1 DESCRIBE命令52

3.5.2 ExPLAIN命令53

3.5.3 ILLUSTRATE命令53

3.6 Pig操作符的高级特性54

3.6.1 FOREACH操作符进阶54

3.6.2 Pig的特殊连接58

3.7 用户定义函数61

3.7.1 运算函数61

3.7.2 加载函数66

3.7.3 存储函数68

3.8 Pig的性能优化69

3.8.1 优化规则69

3.8.2 Pig脚本性能的测量71

3.8.3 Pig的Combiner72

3.8.4 Bag数据类型的内存72

3.8.5 Pig的reducer数量72

3.8.6 Pig的multiquery模式73

3.9 最佳实践73

3.9.1 明确地使用类型74

3.9.2 更早更频繁地使用投影74

3.9.3 更早更频繁地使用过滤74

3.9.4 使用LIMIT操作符74

3.9.5 使用DISTINCT操作符74

3.9.6 减少操作74

3.9.7 使用Algebraic UDF75

3.9.8 使用AccumulatorUDF75

3.9.9 剔除数据中的空记录75

3.9.10 使用特殊连接75

3.9.11 压缩中间结果75

3.9.12 合并小文件76

3.10 小结76

第4章 Hive进阶77

4.1 Hive架构77

4.1.1 Hive元存储78

4.1.2 Hive编译器78

4.1.3 Hive执行引擎78

4.1.4 Hive的支持组件79

4.2 数据类型79

4.3 文件格式80

4.3.1 压缩文件80

4.3.2 ORC文件81

4.3.3 Parquet文件81

4.4 数据模型82

4.4.1 动态分区84

4.4.2 Hive表索引85

4.5 Hive查询优化器87

4.6 DML进阶88

4.6.1 GROUP BY操作88

4.6.2 ORDER BY与SORT BY88

4.6.3 JOIN类型88

4.6.4 高级聚合89

4.6.5 其他高级语句90

4.7 UDF、UDAF和UDTF90

4.8 小结93

第5章 序列化和Hadoop I/O95

5.1 Hadoop数据序列化95

5.1.1 Writable与WritableComparable96

5.1.2 Hadoop与Java序列化的区别98

5.2 Avro序列化100

5.2.1 Avro与MapReduce102

5.2.2 Avro与Pig105

5.2.3 Avro与Hive106

5.2.4 比较Avro与Protocol Buffers/Thrift107

5.3 文件格式108

5.3.1 Sequence文件格式108

5.3.2 MapFile格式111

5.3.3 其他数据结构113

5.4 压缩113

5.4.1 分片与压缩114

5.4.2 压缩范围115

5.5 小结115

第6章 YARN——其他应用模式进入Hadoop的引路人116

6.1 YARN的架构117

6.1.1 资源管理器117

6.1.2 Application Master118

6.1.3 节点管理器119

6.1.4 YARN客户端120

6.2 开发YARN的应用程序120

6.2.1 实现YARN客户端120

6.2.2 实现AM实例125

6.3 YARN的监控129

6.4 YARN中的作业调度134

6.4.1 容量调度器134

6.4.2 公平调度器137

6.5 YARN命令行139

6.5.1 用户命令140

6.5.2 管理员命令140

6.6 小结141

第7章 基于YARN的Storm——Hadoop中的低延时处理142

7.1 批处理对比流式处理142

7 2 Apache Storm144

7.2.1 Apache Storm的集群架构144

7.2.2 Apache Storm的计算和数据模型145

7.2.3 Apache Storm用例146

7 2.4 Apache Storm的开发147

7.2.5 Apache Storm 0.9.1153

7.3 基于YARN的Storm154

7.3.1 在YARN上安装Apache Storm154

7.3.2 安装过程154

7.4 小结161

第8章 云上的Hadoop162

8.1 云计算的特点162

8.2 云上的Hadoop163

8.3 亚马逊Elastic MapReduce164

8.4 小结175

第9章 HDFS替代品176

9.1 HDFS的优缺点176

9.2 亚马逊AWS S3177

9.3 在Hadoop中实现文件系统179

9.4 在Hadoop中实现S3原生文件系统179

9.5 小结189

第10章 HDFS联合190

10.1 旧版HDFS架构的限制190

10.2 HDFS联合的架构192

10.2.1 HDFS联合的好处193

10.2.2 部署联合NameNode193

10.3 HDFS高可用性195

10.3.1 从NameNode、检查节点和备份节点195

10.3.2 高可用性——共享edits196

10.3.3 HDFS实用工具197

10.3.4 三层与四层网络拓扑197

10.4 HDFS块放置策略198

10.5 小结200

第11章 Hadoop安全201

11.1 安全的核心201

11.2 Hadoop中的认证202

11.2.1 Kerberos认证202

11.2.2 Kerberos的架构和工作流203

11.2.3 Kerberos认证和Hadoop204

11.2.4 HTTP接口的认证204

11.3 Hadoop中的授权205

11.3.1 HDFS的授权205

11.3.2 限制HDFS的使用量208

11.3.3 Hadoop中的服务级授权209

11.4 Hadoop中的数据保密性211

11.5 Hadoop中的日志审计216

11.6 小结217

第12章 使用Hadoop进行数据分析218

12.1 数据分析工作流218

12.2 机器学习220

12.3 Apache Mahout222

12.4 使用Hadoop和Mahout进行文档分析223

12.4.1 词频223

12.4.2 文频224

12.4.3 词频-逆向文频224

12.4.4 Pig中的Tf-idf225

12.4.5 余弦相似度距离度量228

12.4.6 使用k-means的聚类228

12.4.7 使用Apache Mahout进行k-means聚类229

12.5 RHadoop233

12.6 小结233

附录 微软Windows中的Hadoop235

热门推荐