图书介绍
Hadoop权威指南 修订&升级版PDF|Epub|txt|kindle电子书版本网盘下载
- (美)怀特著;周敏奇,王晓玲,金澈清,钱卫宁译;周傲英审校 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302257585
- 出版时间:2011
- 标注页数:601页
- 文件大小:45MB
- 文件页数:622页
- 主题词:数据处理-应用软件-指南
PDF下载
下载说明
Hadoop权威指南 修订&升级版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 初识Hadoop1
数据!数据!1
数据存储与分析3
与其他系统相比4
关系型数据库管理系统4
网格计算6
志愿计算8
Hadoop发展简史9
Apache Hadoop和Hadoop生态圈12
第2章 关于MapReduce15
一个气象数据集15
数据的格式15
使用Unix工具进行数据分析17
使用Hadoop分析数据18
map阶段和reduce阶段18
Java MapReduce20
横向扩展27
数据流28
combiner30
运行分布式的MapReduce作业33
Hadoop的Streaming33
Ruby版本33
Python版本36
Hadoop的Pipes37
编译运行38
第3章 Hadoop分布式文件系统41
HDFS的设计41
HDFS的概念43
数据块43
namenode和datanode44
命令行接口45
基本文件系统操作46
Hadoop文件系统47
接口49
Java接口51
从Hadoop URL中读取数据51
通过FileSystem API读取数据52
写入数据55
目录57
查询文件系统57
删除数据62
数据流62
文件读取剖析62
文件写入剖析65
一致模型68
通过distcp并行复制70
保持HDFS集群的均衡71
Hadoop存档71
使用Hadoop存档工具72
不足73
第4章 Hadoop I/O75
数据完整性75
HDFS的数据完整性75
LocalFileSystem76
ChecksumFileSystem77
压缩77
codec78
压缩和输入分片83
在MapReduce中使用压缩84
序列化86
Writable接口87
Writable类89
实现定制的Writable类型96
序列化框架101
Avro103
基于文件的数据结构116
SequenceFile116
MapFile123
第5章 MapReduce应用开发129
配置API130
合并多个源文件131
可变的扩展132
配置开发环境132
配置管理132
辅助类GenericOptionsParser,Tool和ToolRunner135
编写单元测试138
mapper138
reducer140
本地运行测试数据141
在本地作业运行器上运行作业141
测试驱动程序145
在集群上运行146
打包146
启动作业146
MapReduce的Web界面148
获取结果151
作业调试153
使用远程调试器158
作业调优160
分析任务160
MapReduce的工作流163
将问题分解成MapReduce作业163
运行独立的作业165
第6章 MapReduce的工作机制167
剖析MapReduce作业运行机制167
作业的提交167
作业的初始化169
任务的分配169
任务的执行170
进度和状态的更新170
作业的完成172
失败173
任务失败173
tasktracker失败175
jobtracker失败175
作业的调度175
Fair Scheduler176
Capacity Scheduler177
shuffle和排序177
map端177
reduce端179
配置的调优180
任务的执行183
推测执行183
任务JVM重用184
跳过坏记录185
任务执行环境186
第7章 MapReduce的类型与格式189
MapReduce的类型189
默认的MapReduce作业192
输入格式198
输入分片与记录198
文本输入209
二进制输入213
多种输入214
数据库输入(和输出)215
输出格式215
文本输出216
二进制输出216
多个输出217
延迟输出224
数据库输出224
第8章 MapReduce的特性225
计数器225
内置计数器225
用户定义的Java计数器227
用户定义的Streaming计数器232
排序232
准备232
部分排序233
全排序237
辅助排序241
连接247
map端连接247
reduce端连接249
边数据分布252
利用JobConf来配置作业252
分布式缓存253
MapReduce库类257
第9章 构建Hadoop集群259
集群规范259
网络拓扑261
集群的构建和安装263
安装Java264
创建Hadoop用户264
安装Hadoop264
测试安装265
SSH配置265
Hadoop配置266
配置管理267
环境设置269
Hadoop守护进程的关键属性273
Hadoop守护进程的地址和端口278
Hadoop的其他属性279
创建用户帐号280
安全性281
Kerberos和Hadoop282
委托令牌284
其他安全性改进285
利用基准测试程序测试Hadoop集群286
Hadoop基准测试程序287
用户的作业289
云端的Hadoop289
Amazon EC2上的Hadoop290
第10章 管理Hadoop293
HDFS293
永久性数据结构293
安全模式298
日志审计300
工具300
监控305
日志305
度量306
Java管理扩展(JMX)309
维护312
日常管理过程312
委任和解除节点313
升级316
第11章 Pig简介321
安装与运行Pig322
执行类型322
运行Pig程序324
Grunt324
Pig Latin编辑器325
示例325
生成示例327
与数据库比较328
Pig Latin330
结构330
语句331
表达式335
类型336
模式338
函数342
用户自定义函数343
过滤UDF343
计算UDF347
加载UDF348
数据处理操作351
加载和存储数据351
过滤数据352
分组与连接数据354
对数据进行排序359
组合和切分数据360
Pig实战361
并行处理361
参数替换362
第12章 Hive简介365
安装Hive366
Hive外壳环境367
示例368
运行Hive369
配置Hive369
Hive服务371
metastore373
和传统数据库进行比较375
读时模式vs.写时模式376
更新、事务和索引376
HiveQL377
数据类型378
操作与函数380
表381
托管表和外部表381
分区和桶383
存储格式387
导入数据392
表的修改394
表的丢弃395
查询数据395
排序和聚集395
MapReduce脚本396
连接397
子查询400
视图401
用户定义函数402
编写UDF403
编写UDAF405
第13章 HBase411
HBase基础411
背景412
概念412
数据模型的“旋风之旅”412
实现413
安装416
测试驱动417
客户端419
Java419
Avro、REST和Thrift422
示例423
模式424
加载数据425
Web查询428
HBase和RDBMS的比较431
成功的服务432
HBase433
实例:HBase在Streamy.com的使用433
Praxis435
版本435
HDFS436
用户界面437
度量437
模式的设计438
计数器438
批量加载439
第14章 ZooKeeper441
安装和运行ZooKeeper442
示例443
ZooKeeper中的组成员关系444
创建组444
加入组447
列出组成员448
删除组450
ZooKeeper服务451
数据模型451
操作453
实现457
一致性458
会话460
状态462
使用ZooKeeper来构建应用463
配置服务463
可复原的ZooKeeper应用466
锁服务470
更多分布式数据结构和协议472
生产环境中的ZooKeeper473
可恢复性和性能473
配置474
第15章 开源工具Sqoop477
获取Sqoop477
一个导入的例子479
生成代码482
其他序列化系统482
深入了解数据库导入483
导入控制485
导入和一致性485
直接模式导入485
使用导入的数据486
导入的数据与Hive487
导入大对象489
执行导出491
深入了解导出493
导出与事务494
导出和SequenceFile494
第16章 实例分析497
Hadoop在Last.fm的应用497
Last.fm:社会音乐史上的革命497
Hadoop在Last.fm中的应用497
用Hadoop产生图表498
Track Statistics程序499
总结506
Hadoop和Hive在Facebook中的应用506
概要介绍506
Hadoop在Facebook的使用506
假想的使用情况509
Hive512
存在的问题与未来工作计划516
Nutch搜索引擎517
背景介绍517
数据结构518
Nutch系统利用Hadoop进行数据处理的精选实例521
总结530
Rackspace的日志处理531
简史532
选择Hadoop532
收集和存储532
日志的MapReduce模型533
关于Cascading539
字段、元组和管道540
操作542
Tap类、Scheme对象和Flow对象544
Cascading实战545
灵活性548
Hadoop和Cascading在ShareThis的应用549
总结552
Apache Hadoop的TB字节数量级排序553
使用Pig和Wukong来探索10亿数量级边的网络图556
测量社区558
每个人都在和我说话:Twitter回复关系图558
度(degree)560
对称链接561
社区提取562
附录A 安装Apache Hadoop565
附录B Cloudera's Distribution for Hadoop571
附录C 准备NCDC天气数据573
索引577