图书介绍

Hadoop权威指南 修订&升级版PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop权威指南 修订&升级版
  • (美)怀特著;周敏奇,王晓玲,金澈清,钱卫宁译;周傲英审校 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302257585
  • 出版时间:2011
  • 标注页数:601页
  • 文件大小:45MB
  • 文件页数:622页
  • 主题词:数据处理-应用软件-指南

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop权威指南 修订&升级版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 初识Hadoop1

数据!数据!1

数据存储与分析3

与其他系统相比4

关系型数据库管理系统4

网格计算6

志愿计算8

Hadoop发展简史9

Apache Hadoop和Hadoop生态圈12

第2章 关于MapReduce15

一个气象数据集15

数据的格式15

使用Unix工具进行数据分析17

使用Hadoop分析数据18

map阶段和reduce阶段18

Java MapReduce20

横向扩展27

数据流28

combiner30

运行分布式的MapReduce作业33

Hadoop的Streaming33

Ruby版本33

Python版本36

Hadoop的Pipes37

编译运行38

第3章 Hadoop分布式文件系统41

HDFS的设计41

HDFS的概念43

数据块43

namenode和datanode44

命令行接口45

基本文件系统操作46

Hadoop文件系统47

接口49

Java接口51

从Hadoop URL中读取数据51

通过FileSystem API读取数据52

写入数据55

目录57

查询文件系统57

删除数据62

数据流62

文件读取剖析62

文件写入剖析65

一致模型68

通过distcp并行复制70

保持HDFS集群的均衡71

Hadoop存档71

使用Hadoop存档工具72

不足73

第4章 Hadoop I/O75

数据完整性75

HDFS的数据完整性75

LocalFileSystem76

ChecksumFileSystem77

压缩77

codec78

压缩和输入分片83

在MapReduce中使用压缩84

序列化86

Writable接口87

Writable类89

实现定制的Writable类型96

序列化框架101

Avro103

基于文件的数据结构116

SequenceFile116

MapFile123

第5章 MapReduce应用开发129

配置API130

合并多个源文件131

可变的扩展132

配置开发环境132

配置管理132

辅助类GenericOptionsParser,Tool和ToolRunner135

编写单元测试138

mapper138

reducer140

本地运行测试数据141

在本地作业运行器上运行作业141

测试驱动程序145

在集群上运行146

打包146

启动作业146

MapReduce的Web界面148

获取结果151

作业调试153

使用远程调试器158

作业调优160

分析任务160

MapReduce的工作流163

将问题分解成MapReduce作业163

运行独立的作业165

第6章 MapReduce的工作机制167

剖析MapReduce作业运行机制167

作业的提交167

作业的初始化169

任务的分配169

任务的执行170

进度和状态的更新170

作业的完成172

失败173

任务失败173

tasktracker失败175

jobtracker失败175

作业的调度175

Fair Scheduler176

Capacity Scheduler177

shuffle和排序177

map端177

reduce端179

配置的调优180

任务的执行183

推测执行183

任务JVM重用184

跳过坏记录185

任务执行环境186

第7章 MapReduce的类型与格式189

MapReduce的类型189

默认的MapReduce作业192

输入格式198

输入分片与记录198

文本输入209

二进制输入213

多种输入214

数据库输入(和输出)215

输出格式215

文本输出216

二进制输出216

多个输出217

延迟输出224

数据库输出224

第8章 MapReduce的特性225

计数器225

内置计数器225

用户定义的Java计数器227

用户定义的Streaming计数器232

排序232

准备232

部分排序233

全排序237

辅助排序241

连接247

map端连接247

reduce端连接249

边数据分布252

利用JobConf来配置作业252

分布式缓存253

MapReduce库类257

第9章 构建Hadoop集群259

集群规范259

网络拓扑261

集群的构建和安装263

安装Java264

创建Hadoop用户264

安装Hadoop264

测试安装265

SSH配置265

Hadoop配置266

配置管理267

环境设置269

Hadoop守护进程的关键属性273

Hadoop守护进程的地址和端口278

Hadoop的其他属性279

创建用户帐号280

安全性281

Kerberos和Hadoop282

委托令牌284

其他安全性改进285

利用基准测试程序测试Hadoop集群286

Hadoop基准测试程序287

用户的作业289

云端的Hadoop289

Amazon EC2上的Hadoop290

第10章 管理Hadoop293

HDFS293

永久性数据结构293

安全模式298

日志审计300

工具300

监控305

日志305

度量306

Java管理扩展(JMX)309

维护312

日常管理过程312

委任和解除节点313

升级316

第11章 Pig简介321

安装与运行Pig322

执行类型322

运行Pig程序324

Grunt324

Pig Latin编辑器325

示例325

生成示例327

与数据库比较328

Pig Latin330

结构330

语句331

表达式335

类型336

模式338

函数342

用户自定义函数343

过滤UDF343

计算UDF347

加载UDF348

数据处理操作351

加载和存储数据351

过滤数据352

分组与连接数据354

对数据进行排序359

组合和切分数据360

Pig实战361

并行处理361

参数替换362

第12章 Hive简介365

安装Hive366

Hive外壳环境367

示例368

运行Hive369

配置Hive369

Hive服务371

metastore373

和传统数据库进行比较375

读时模式vs.写时模式376

更新、事务和索引376

HiveQL377

数据类型378

操作与函数380

表381

托管表和外部表381

分区和桶383

存储格式387

导入数据392

表的修改394

表的丢弃395

查询数据395

排序和聚集395

MapReduce脚本396

连接397

子查询400

视图401

用户定义函数402

编写UDF403

编写UDAF405

第13章 HBase411

HBase基础411

背景412

概念412

数据模型的“旋风之旅”412

实现413

安装416

测试驱动417

客户端419

Java419

Avro、REST和Thrift422

示例423

模式424

加载数据425

Web查询428

HBase和RDBMS的比较431

成功的服务432

HBase433

实例:HBase在Streamy.com的使用433

Praxis435

版本435

HDFS436

用户界面437

度量437

模式的设计438

计数器438

批量加载439

第14章 ZooKeeper441

安装和运行ZooKeeper442

示例443

ZooKeeper中的组成员关系444

创建组444

加入组447

列出组成员448

删除组450

ZooKeeper服务451

数据模型451

操作453

实现457

一致性458

会话460

状态462

使用ZooKeeper来构建应用463

配置服务463

可复原的ZooKeeper应用466

锁服务470

更多分布式数据结构和协议472

生产环境中的ZooKeeper473

可恢复性和性能473

配置474

第15章 开源工具Sqoop477

获取Sqoop477

一个导入的例子479

生成代码482

其他序列化系统482

深入了解数据库导入483

导入控制485

导入和一致性485

直接模式导入485

使用导入的数据486

导入的数据与Hive487

导入大对象489

执行导出491

深入了解导出493

导出与事务494

导出和SequenceFile494

第16章 实例分析497

Hadoop在Last.fm的应用497

Last.fm:社会音乐史上的革命497

Hadoop在Last.fm中的应用497

用Hadoop产生图表498

Track Statistics程序499

总结506

Hadoop和Hive在Facebook中的应用506

概要介绍506

Hadoop在Facebook的使用506

假想的使用情况509

Hive512

存在的问题与未来工作计划516

Nutch搜索引擎517

背景介绍517

数据结构518

Nutch系统利用Hadoop进行数据处理的精选实例521

总结530

Rackspace的日志处理531

简史532

选择Hadoop532

收集和存储532

日志的MapReduce模型533

关于Cascading539

字段、元组和管道540

操作542

Tap类、Scheme对象和Flow对象544

Cascading实战545

灵活性548

Hadoop和Cascading在ShareThis的应用549

总结552

Apache Hadoop的TB字节数量级排序553

使用Pig和Wukong来探索10亿数量级边的网络图556

测量社区558

每个人都在和我说话:Twitter回复关系图558

度(degree)560

对称链接561

社区提取562

附录A 安装Apache Hadoop565

附录B Cloudera's Distribution for Hadoop571

附录C 准备NCDC天气数据573

索引577

热门推荐