图书介绍

大数据从基础理论到最佳实践PDF|Epub|txt|kindle电子书版本网盘下载

祁伟主编；刘冰等副主编著
出版社：北京：清华大学出版社
ISBN：9787302457435
出版时间：2017
标注页数：332页
文件大小：44MB
文件页数：343页
主题词：数据处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：7ff18eeca6289a5961bded1955027d27

下载说明

大数据从基础理论到最佳实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

大数据存储篇1

第1章概述1

1.1 什么是大数据2

1.2 大数据的技术转型3

1.3 数据分片4

1.4 数据一致性5

1.4.1 CAP原则5

1.4.2 CAP与ACID7

1.4.3 BASE原则8

1.5 主流大数据技术8

1.6 大数据职业方向10

1.7 大数据实践平台的搭建10

1.7.1 初学者模式10

1.7.2 物理集群模式11

1.7.3 虚拟化集群模式11

1.8 小结12

第2章 HDFS文件系统13

2.1 HDFS概述14

2.1.1 分布式文件系统14

2.1.2 HDFS介绍16

2.2 HDFS的运行机制18

2.2.1 HDFS的结构与组成18

2.2.2 HDFS的数据操作20

2.2.3 访问权限22

2.2.4 通信协议簇23

2.2.5 HDFS的高可用性24

2.2.6 集中缓存管理25

2.2.7 日志和检查点26

2.2.8 HDFS快照28

2.3 HDFS的数据存储29

2.3.1 数据完整性29

2.3.2 数据压缩30

2.3.3 序列化32

2.4 HDFS的安装和配置34

2.4.1 Hadoop的安装34

2.4.2 HDFS的配置40

2.4.3 启动HDFS45

2.5 小结47

第3章 HDFS操作实践49

3.1 HDFS接口与编程50

3.1.1 Shell命令50

3.1.2 Java接口操作62

3.1.3 WebHDFS69

3.1.4 其他接口71

3.2 操作实践73

3.2.1 文件操作73

3.2.2 压缩与解压缩77

3.3 小结80

大数据计算篇81

第4章 YARN81

4.1 YARN概述82

4.2 YARN的主要组成模块83

4.3 YARN的整体设计83

4.4 容量调度器84

4.4.1 什么是容量调度器84

4.4.2 容量调度器的特性85

4.4.3 配置RM使用容量调度器85

4.5 公平调度器（Fair Scheduler）86

4.5.1 什么是公平调度器86

4.5.2 分级队列87

4.5.3 公平调度器队列的设置87

4.6 资源管理者（RM）重启机制90

4.6.1 什么是资源管理器重启90

4.6.2 非工作保存RM重启90

4.6.3 工作保存RM重启91

4.6.4 RM重启配置yarn-site.xml91

4.7 资源管理器的高可用性（RM HA）92

4.7.1 什么是资源管理器的高可用性92

4.7.2 自动故障转移92

4.7.3 客户端/应用管理器/节点管理器的故障转移92

4.7.4 部署RM HA93

4.7.5 配置例子94

4.7.6 管理员命令95

4.8 节点标签95

4.8.1 节点标签的特点95

4.8.2 节点标签的属性95

4.8.3 节点标签的配置96

4.8.4 使用节点标签的调度器配置96

4.8.5 节点标签配置示例97

4.8.6 指定应用的节点标签97

4.8.7 节点标签的监控98

4.9 YARN编程98

4.9.1 什么是YARN级别编程98

4.9.2 YARN的相关接口99

4.9.3 编程实践99

4.10 YARN服务注册107

4.10.1 为什么需要服务注册107

4.10.2 配置服务注册107

4.10.3 安全选项108

4.11 小结108

第5章 MapReduce109

5.1 MapReduce概述110

5.1.1 Hadoop MapReduce110

5.1.2 MapReduce的发展史110

5.1.3 MapReduce的使用场景111

5.2 Key-Value结构的特点111

5.2.1 key的设计111

5.2.2 value的设计112

5.3 MapReduce的部署112

5.3.1 软件准备112

5.3.2 配置文件113

5.3.3 启动YARN守护进程113

5.4 MapReduce的程序结构113

5.4.1 MR框架的输入和输出114

5.4.2 WordCount114

5.5 MapReduce的编程接口116

5.5.1 Mapper接口117

5.5.2 Reducer接口117

5.5.3 Partitioner（分区）118

5.5.4 Counter（计数器）118

5.5.5 job工作机理118

5.5.6 任务提交和监控（Job Submission and Monitoring）121

5.5.7 任务的辅助文件（Task Side-Effect Files）123

5.5.8 提交作业到队列123

5.5.9 MR中的计数器（Counters）123

5.5.10 Profiling123

5.5.11 Debugging124

5.5.12 job Outputs124

5.5.13 忽略坏记录（Skipping Bad Records）124

5.6 MapReduce的命令行125

5.6.1 概述125

5.6.2 用户命令（User Commands）125

5.6.3 管理员命令（Administration Commands）127

5.6.4 YARN-MapReduce的部署128

5.7 WordCount的实现129

5.8 小结136

非关系型数据库篇137

第6章使用HBase137

6.1 HBase基础138

6.1.1 HBase是什么138

6.1.2 HBase伪分布式部署140

6.1.3 服务的启动与验证142

6.1.4 HBase Shell测试142

6.1.5 Web测试144

6.1.6 服务的关闭147

6.2 HBase的架构原理147

6.2.1 组成架构147

6.2.2 数据模型151

6.2.3 物理存储153

6.3 HBase的命令实践156

6.3.1 概述157

6.3.2 命名空间158

6.3.3 表管理160

6.4 HBase的数据管理166

6.4.1 数据的添加167

6.4.2 数据的追加168

6.4.3 数据的获取169

6.4.4 数据统计172

6.4.5 表的扫描173

6.4.6 数据的删除175

6.4.7 表的重建175

6.5 HBase的集群管理177

6.5.1 集群部署177

6.5.2 自动化脚本180

6.5.3 权限管理182

6.5.4 集群调度184

6.5.5 日志分析186

6.6 小结187

第7章 HBase编程开发189

7.1 HBase的编程接口190

7.1.1 rest编程接口190

7.1.2 thrift接口196

7.1.3 Java API接口198

7.1.4 Java API示例199

7.2 表与命名空间的编程202

7.2.1 表的查看203

7.2.2 表的创建206

7.2.3 表的删除207

7.2.4 表的修改208

7.2.5 命名空间210

7.3 数据编程213

7.3.1 数据的增加214

7.3.2 单行查询216

7.3.3 集合查询217

7.3.4 过滤器219

7.3.5 数据删除221

7.4 集群与优化编程222

7.4.1 集群管理222

7.4.2 集群监测224

7.4.3 多表与表池227

7.4.4 批处理230

7.4.5 数据迁移231

7.5 小结234

大数据仓库篇235

第8章数据仓库概论235

8.1 初识数据仓库236

8.1.1 什么是数据仓库236

8.1.2 数据仓库与数据库237

8.1.3 为什么要有数据仓库239

8.2 数据仓库的核心概念240

8.2.1 数据平台240

8.2.2 数据产品241

8.2.3 商务智能（BI）242

8.2.4 元数据242

8.2.5 OLAP242

8.2.6 ETL243

8.2.7 数据质量243

8.3 数据仓库中的数据内容划分243

8.3.1 多个数据仓库243

8.3.2 典型的数据仓库分层245

8.3.3 数据集市246

8.4 OLAP247

8.4.1 定义247

8.4.2 维度建模248

8.4.3 事实表250

8.4.4 维度表251

8.5 ETL251

8.5.1 抽取252

8.5.2 转换252

8.5.3 加载254

8.5.4 ETL元数据255

8.5.5 ETL工具256

8.6 调度和运行256

8.6.1 调度怎么工作257

8.6.2 需要考虑的其他方面258

8.6.3 简易调度示例259

8.7 数据仓库的架构259

8.8 数据仓库的展望260

8.8.1 数据仓库发展的阶段性260

8.8.2 未来的数据仓库262

8.9 小结262

第9章 Hive263

9.1 初识Hive264

9.1.1 Hive是什么264

9.1.2 Hive的部署264

9.1.3 以MySQL作为Hive的元数据库266

9.1.4 Hive的体系结构268

9.1.5 Web界面展示269

9.2 Hive命令行接口270

9.2.1 启动Hive命令行270

9.2.2 可用的命令271

9.3 Hive数据类型与常见的结构271

9.3.1 数据类型271

9.3.2 文件的存储结构273

9.4 HiveSQL274

9.4.1 数据定义语言DDL274

9.4.2 数据操纵语言DML277

9.5 Hive的自定义函数283

9.5.1 UDF284

9.5.2 UDAF286

9.5.3 UDTF289

9.6 Hive的高级使用292

9.6.1 视图292

9.6.2 索引293

9.6.3 权限294

9.6.4 Thrift服务296

9.7 使用Hive构建数据仓库298

9.7.1 原始数据和结构298

9.7.2 数据需求和模型设计300

9.7.3 各层次数据的生成301

9.8 小结302

大数据实时计算篇303

第10章 Storm实时系统303

10.1 大数据实时系统概述304

10.2 Kafka分布式消息系统305

10.2.1 Kafka是什么305

10.2.2 主题的工作原理306

10.2.3 分布式分区307

10.2.4 生产者、消费者307

10.2.5 数据保证308

10.2.6 Kafka系统的应用场景308

10.2.7 Kafka系统的部署309

10.3 Storm实时处理系统316

10.3.1 概述316

10.3.2 为什么使用Storm316

10.3.3 Storm系统的特点317

10.3.4 Storm系统的工作机制318

10.3.5 Storm的分组方法319

10.3.6 Storm系统的组件320

10.3.7 搭建单点Storm系统320

10.3.8 查看Storm UI322

10.3.9 搭建Storm集群322

10.3.10 Storm系统的操作实践323

10.3.11 Storm WordCount（写RDB）324

10.3.12 Storm WordCount（从Kafka读取数据）329

10.4 小结331

参考文献332