图书介绍

Hadoop MapReduce实战手册PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop MapReduce实战手册
  • (斯里)佩雷拉,(斯里)冈纳拉森著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115384379
  • 出版时间:2015
  • 标注页数:234页
  • 文件大小:32MB
  • 文件页数:250页
  • 主题词:数据处理软件-手册;软件工具-程序设计-手册

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop MapReduce实战手册PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搭建Hadoop并在集群中运行1

1.1 简介1

1.2 在你的机器上安装Hadoop2

1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它3

1.4 给WordCount MapReduce程序增加combiner步骤7

1.5 安装HDFS8

1.6 使用HDFS监控UI11

1.7 HDFS的基本命令行文件操作12

1.8 在分布式集群环境中设置Hadoop14

1.9 在分布式集群环境中运行WordCount程序18

1.10 使用MapReduce监控UI20

第2章 HDFS进阶21

2.1 简介21

2.2 HDFS基准测试22

2.3 添加一个新的DataNode23

2.4 DataNode下架25

2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况26

2.6 设置HDFS块大小27

2.7 设置文件冗余因子28

2.8 使用HDFS的Java API29

2.9 使用HDFS的CAPI(libhdfs)33

2.10 挂载HDFS(Fuse-DFS)36

2.11 在HDFS中合并文件38

第3章 高级Hadoop MapReduce运维40

3.1 简介40

3.2 调优集群部署的Hadoop配置40

3.3 运行基准测试来验证Hadoop的安装43

3.4 复用Java虚拟机以提高性能44

3.5 容错和推测执行45

3.6 调试脚本——分析任务失败46

3.7 设置失败百分比以及跳过不良记录48

3.8 共享用户的Hadoop集群——使用公平调度器和其他调度器50

3.9 Hadoop的安全性——整合使用Kerberos51

3.10 使用Hadoop的工具接口56

第4章 开发复杂的Hadoop MapReduce应用程序59

4.1 简介59

4.2 选择合适的Hadoop数据类型60

4.3 实现自定义的HadoopWritable数据类型62

4.4 实现自定义Hadoop key类型65

4.5 从mapper中输出不同值类型的数据68

4.6 为输入数据格式选择合适的Hadoop InputFormat70

4.7 添加新的输入数据格式的支持——实现自定义的InputFormat73

4.8 格式化MapReduce计算的结果——使用Hadoop的outputFormat76

4.9 Hadoop的中间(map到reduce)数据分区78

4.10 将共享资源传播和分发到MapReduce作业的任务中——Hadoop DistributedCache80

4.11 在Hadoop上使用传统应用程序——Hadoop Streaming84

4.12 添加MapReduce作业之间的依赖关系86

4.13 用于报告自定义指标的Hadoop计数器88

第5章 Hadoop生态系统90

5.1 简介90

5.2 安装HBase91

5.3 使用Java客户端API随机存取数据93

5.4 基于HBase(表输入/输出)运行MapReduce作业95

5.5 安装Pig98

5.6 运行第一条Pig命令99

5.7 使用Pig执行集合操作(join,union)与排序100

5.8 安装Hive102

5.9 使用Hive运行SQL风格的查询103

5.10 使用Hive执行join105

5.11 安装Mahout107

5.12 使用Mahout运行K-means108

5.13 可视化K-means结果110

第6章 分析112

6.1 简介112

6.2 使用MapReduce的简单分析113

6.3 使用MapReduce执行Group-By116

6.4 使用MapReduce计算频率分布和排序119

6.5 使用GNU Plot绘制Hadoop计算结果121

6.6 使用MapReduce计算直方图123

6.7 使用MapReduce计算散点图126

6.8 用Hadoop解析复杂的数据集129

6.9 使用MapReduce连接两个数据集133

第7章 搜索和索引139

7.1 简介139

7.2 使用Hadoop MapReduce生成倒排索引140

7.3 使用Apache Nutch构建域内网络爬虫143

7.4 使用Apache Solr索引和搜索网络文档147

7.5 配置Apache HBase作为ApacheNutch的后端数据存储149

7.6 在Hadoop集群上部署Apache HBase151

7.7 使用Hadoop/HBase集群构建Apache Nutch全网爬虫服务153

7.8 用于索引和搜索的ElasticSearch156

7.9 生成抓取网页的内链图158

第8章 聚类、推荐和关系发现161

8.1 简介161

8.2 基于内容的推荐162

8.3 层次聚类167

8.4 对亚马逊销售数据集进行聚类操作170

8.5 基于协同过滤的推荐173

8.6 使用朴素贝叶斯分类器的分类176

8.7 使用Adwords平衡算法给广告分配关键字181

第9章 海量文本数据处理189

9.1 简介189

9.2 使用Hadoop Streaming和Python预处理数据(抽取、清洗和格式转换)190

9.3 使用Hadoop Streaming进行数据去重192

9.4 使用importtsv和批量加载工具把大型数据集加载到ApacheHBase数据存储中194

9.5 创建用于文本数据的TF向量和TF-IDF向量198

9.6 聚类文本数据201

9.7 使用隐含狄利克雷分布(LDA)发现主题203

9.8 使用Mahout的朴素贝叶斯分类器分类文件206

第10章 云端部署——在云上使用Hadoop208

10.1 简介208

10.2 使用亚马逊弹性MapReduce运行Hadoop MapReduce计算209

10.3 使用亚马逊EC2竞价实例来执行EMR作业流以节约开支212

10.4 使用EMR执行Pig脚本213

10.5 使用EMR执行Hive脚本216

10.6 使用命令行界面创建亚马逊EMR作业流219

10.7 使用EMR在亚马逊EC2云上部署ApacheHBase集群222

10.8 使用EMR引导操作来配置亚马逊EMR作业的虚拟机226

10.9 使用Apache Whirr在云环境中部署Apache Hadoop集群228

10.10 使用Apache Whirr在云环境中部署Apache HBase集群231

热门推荐