图书介绍
Hadoop权威指南 中文版PDF|Epub|txt|kindle电子书版本网盘下载
- (美)怀特著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302224242
- 出版时间:2010
- 标注页数:504页
- 文件大小:82MB
- 文件页数:529页
- 主题词:数据处理-应用软件-指南
PDF下载
下载说明
Hadoop权威指南 中文版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 初识Hadoop1
1.1 数据!数据1
1.2 数据的存储和分析3
1.3 相较于其他系统4
1.3.1 关系型数据库管理系统5
1.3.2 网格计算6
1.3.3 志愿计算8
1.4 Hadoop发展简史9
1.5 Apache Hadoop项目12
第2章 MapReduce简介15
2.1 一个气象数据集15
2.2 使用Unix Tools来分析数据17
2.3 使用Hadoop进行数据分析19
2.3.1 map和reduce19
2.3.2 Java MapReduce20
2.4 分布化30
2.4.1 数据流30
2.4.2 具体定义一个combiner34
2.4.3 运行分布式MapReduce作业35
2.5 Hadoop流35
2.5.1 Ruby语言36
2.5.2 Python38
2.6 Hadoop管道40
第3章 Hadoop分布式文件系统44
3.1 HDFS的设计44
3.2 HDFS的念45
3.2.1 块45
3.2.2 名称节点与数据节点47
3.3 命令行接口48
3.4 Hadoop文件系统50
3.5 Java接口54
3.5.1 从Hadoop URL中读取数据54
3.5.2 使用FileSystem API读取数据56
3.5.3 写入数据59
3.5.4 目录62
3.5.5 查询文件系统62
3.5.6 删除数据67
3.6 数据流68
3.6.1 文件读取剖析68
3.6.2 文件写入剖析71
3.6.3 一致模型73
3.7 通过distcp进行并行复制75
3.8 Hadoop归档文件77
3.8.1 使用Hadoop Archives77
3.8.2 不足79
第4章 Hadoop的I/O80
4.1 数据完整性80
4.1.1 HDFS的数据完整性81
4.1.2 本地文件系统82
4.1.3 ChecksumFileSystem82
4.2 压缩83
4.2.1 编码/解码器84
4.2.2 压缩和输入分割89
4.2.3 在MapReduce中使用压缩90
4.3 序列化92
4.3.1 Writable接口93
4.3.2 Writeable类96
4.3.3 实现自定义的Writable104
4.3.4 序列化框架109
4.4 基于文件的数据结构111
4.4.1 SequenceFile类112
4.4.2 MapFile120
第5章 MapReduce应用开发125
5.1 API的配置126
5.1.1 合并资源127
5.1.2 各种扩展形式128
5.2 配置开发环境128
5.2.1 配置的管理129
5.2.2 GenericOptionsParser,Tool和ToolRunner131
5.3 编写单元测试134
5.3.1 Mapper135
5.3.2 reducer137
5.4 本地运行测试数据138
5.4.1 在本地作业运行器上运行作业139
5.4.2 测试驱动程序142
5.5 在集群上运行144
5.5.1 打包144
5.5.2 启动作业144
5.5.3 MapReduce网络用户界面146
5.5.4 获取结果150
5.5.5 调试作业151
5.5.6 使用远程调试器157
5.6 作业调优159
5.7 MapReduce的工作流162
5.7.1 将问题分解成MapReduce作业163
5.7.2 运行独立的作业164
第6章 MapReduce的工作原理166
6.1 运行MapReduce作业166
6.1.1 提交作业166
6.1.2 作业的初始化168
6.1.3 任务的分配168
6.1.4 任务的执行169
6.1.5 进度和状态的更新170
6.1.6 作业的完成171
6.2 失败172
6.2.1 任务失败172
6.2.2 tasktracker失败174
6.2.3 jobtracker失败174
6.3 作业的调度174
6.4 shuffle和排序175
6.4.1 map端176
6.4.2 reduce端177
6.4.3 配置的调整178
6.5 任务的执行181
6.5.1 推测式执行181
6.5.2 任务JVM重用183
6.5.3 跳过坏记录184
6.5.4 任务执行环境185
第7章 MapReduce的类型与格式188
7.1 MapReduce类型188
7.2 输入格式198
7.2.1 输入分片与记录198
7.2.2 文本输入210
7.2.3 二进制输入214
7.2.4 多种输入215
7.2.5 数据库格式的输入/输出216
7.3 输出格式217
7.3.1 文本输出217
7.3.2 二进制输出218
7.3.3 多个输出218
7.3.4 延迟输出226
7.3.5 数据库输出226
第8章 MapReduce特性227
8.1 计数器227
8.1.1 内置计数器227
8.1.2 用户自定义Java计数器230
8.1.3 用户自定义流计数器235
8.2 排序235
8.2.1 准备235
8.2.2 部分排序237
8.2.3 全局排序242
8.2.4 二次排序246
8.3 联接252
8.3.1 map端联接253
8.3.2 reduce端联接254
8.4 次要数据的分布258
8.4.1 使用作业配置258
8.4.2 分布式缓存258
8.5 MapReduce的类库263
第9章 Hadoop集群的安装264
9.1 集群说明264
9.2 集群的建立和安装268
9.2.1 安装Java268
9.2.2 创建Hadoop用户269
9.2.3 安装Hadoop269
9.2.4 测试安装270
9.3 SSH配置270
9.4 Hadoop配置271
9.4.1 配置管理271
9.4.2 环境设置274
9.4.3 重要的Hadoop后台程序属性278
9.4.4 Hadoop后台程序地址和端口283
9.4.5 其他Hadoop属性284
9.5 安装之后286
9.6 Hadoop集群基准测试286
9.6.1 Hadoop基准测试287
9.6.2 用户作业290
9.7 云计算中的Hadoop290
第10章 Hadoop的管理293
10.1 HDFS293
10.1.1 持久化的数据结构293
10.1.2 安全模式298
10.1.3 审计日志300
10.1.4 工具300
10.2 监控306
10.2.1 日志306
10.2.2 度量307
10.2.3 Java管理扩展310
10.3 维护313
10.3.1 例行管理程序313
10.3.2 委托节点和撤消节点314
10.3.3 升级317
第11章 Pig简介321
11.1 安装和运行Pig322
11.1.1 执行类型322
11.1.2 运行Pig程序324
11.1.3 Grunt324
11.1.4 Pig Latin编辑器325
11.2 实例325
11.3 与数据库比较329
11.4 Pig Latin330
11.4.1 结构330
11.4.2 语句331
11.4.3 表达式334
11.4.4 类型335
11.4.5 模式337
11.4.6 函数341
11.5 用户定义函数343
11.5.1 过滤UDF343
11.5.2 求值UDF347
11.5.3 加载UDF348
11.6 数据处理操作符353
11.6.1 加载和存储数据353
11.6.2 过滤数据353
11.6.3 数据的分组和联接356
11.6.4 数据的排序361
11.6.5 数据的合并和分割362
11.7 Pig实践提示与技巧363
11.7.1 并行363
11.7.2 参数替换364
第12章 Hbase简介366
12.1 HBase基础366
12.2 概念367
12.2.1 数据模型速览367
12.2.2 实现368
12.3 安装371
12.4 客户端374
12.4.1 Java374
12.4.2 REST和thrift376
12.5 示例377
12.5.1 架构378
12.5.2 加载数据379
12.5.3 Web查询382
12.6 HBase与RDBMS的比较385
12.6.1 成功的服务386
12.6.2 HBase387
12.6.3 用例:streamy.com的Hbase388
12.7 实践390
12.7.1 版本390
12.7.2 Hbase和HDFS的爱与恨390
12.7.3 用户界面392
12.7.4 度量392
12.7.5 架构设计392
第13章 ZooKeeper简介394
13.1 ZooKeeper的安装和运行395
13.2 范例396
13.2.1 ZooKeeper中的组成员制397
13.2.2 创建组397
13.2.3 加入组400
13.2.4 列出组成员401
13.2.5 删除一个组404
13.3 ZooKeeper服务405
13.3.1 数据模型405
13.3.2 操作407
13.3.3 执行411
13.3.4 一致性412
13.3.5 会话414
13.3.6 状态416
13.4 使用ZooKeeper建立应用程序417
13.4.1 配置服务417
13.4.2 可恢复的ZooKeeper应用421
13.4.3 锁服务425
13.4.4 更多分布式数据结构和协议427
13.5 工业界中的ZooKeeper428
13.5.1 恢复力及性能428
13.5.2 配置429
第14章 案例研究431
14.1 Hadoop在Last.fm的应用431
14.1.1 Last.fm:社会音乐革命431
14.1.2 使用Hadoop生成排行榜432
14.1.3 单曲统计程序433
14.1.4 小结440
14.2 Hadoop和Hive在Facebook的应用441
14.2.1 简介441
14.2.2 Hadoop在Facebook的应用441
14.2.3 虚拟案例研究444
14.2.4 Hive446
14.2.5 存在的问题及未来的工作450
14.3 Hadoop在Nutch搜索引擎451
14.3.1 背景451
14.3.2 数据结构453
14.3.3 Nutch中Hadoop数据处理精选实例455
14.3.4 小结465
14.4 Hadoop用于Rackspace的日志处理466
14.4.1 需求/存在的问题466
14.4.2 简史467
14.4.3 选择Hadoop467
14.4.4 收集和存储467
14.4.5 日志的MapReduce468
14.5 Cascading项目474
14.5.1 字段、元组和管道475
14.5.2 操作477
14.5.3 Tap、Sheme和Flow479
14.5.4 Cascading实践480
14.5.5 灵活性483
14.5.6 Hadoop和Cascading在ShareThis的应用484
14.5.7 小结487
14.6 Apache Hadoop的1 TB排序488
附录A Apache Hadoop的安装491
附录B Cloudera的Hadoop分发包497
附录C 预备NCDC气象资料502