图书介绍

Hadoop Hacks 中文版PDF|Epub|txt|kindle电子书版本网盘下载

Hadoop Hacks 中文版
  • (日)中野猛著 著
  • 出版社: 北京:中国电力出版社
  • ISBN:9787512346352
  • 出版时间:2014
  • 标注页数:374页
  • 文件大小:58MB
  • 文件页数:393页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop Hacks 中文版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

前言1

第1章 系统架构/运用技巧5

运行HDFS环境的参数6

运行MapReduce环境需要的参数7

总结8

文件描述符的设置9

Java的安装10

总结11

本技巧中介绍的HA的构成11

HA集群的构建过程13

疑难解答31

总结33

可以获取的统计信息34

总结40

关于CDH3同一版本间的更新41

总结42

准备43

理解操作43

使用Oracle的操作确认45

总结52

Sqoop的PostgreSQL联合功能53

在PostgreSQL中的使用53

PostgreSQL联合的挑战55

总结55

什么是Azkaban55

Azkaban的安装56

总结61

作业的定制61

总结66

第2章 应用程序开发技巧67

将Hadoop配置文件拷贝到外部应用程序67

从应用程序操作MapReduce68

总结69

什么是InMapperCombiner70

InMapperCombiner的实现方法70

总结72

自定义Writable类型主要分为两种73

如何生成一个Writable接口的子类73

总结75

自定义Partitioner的实现方法75

总结77

什么是DistributedCache78

DistributedCache的使用78

总结79

自定义CombineFileInputFormat的实现80

自定义CombineFileInputFormat的使用84

总结86

获取MRUnit Jar文件87

Map的测试87

Reduce的测试88

测试MapReduce作业88

总结89

生成自定义Writable90

生成GroupingComparatorClass90

生成PartitionerClass91

生成SortComparatorClass91

设置各个Comparator92

总结92

数据的内容93

Map端连接的代码93

输出结果94

单独读入文件进行连接94

总结95

数据的内容95

Map的定义95

Reduce的定义96

作业的定义96

输出结果97

总结97

定义作业98

总结100

InputFormat类100

OutputFormat类102

总结104

Cassandra的hadoop程序包内容105

Map类105

Reduce类106

定义作业106

总结107

获取文件系统信息108

操作HDFS的API109

总结111

分析的要点112

用计数器可以确认的项目112

处理结束后的确认方法113

经过一定时间后的确认方法114

作业历史的管理方法115

总结115

Hadoop中可以处理的压缩格式116

Hadoop中处理lzo压缩的准备116

在MapReduce程序中处理压缩文件117

在Hive中处理压缩文件120

总结121

第3章 HBase技巧122

importtsv工具122

completebulkload工具123

总结123

sqoop import124

自定义PutTransformer124

总结125

用于HFileOutputFormat的Mapper126

作业的设置126

总结127

Java API128

HBase shell129

总结129

什么是协处理器130

Observer130

Endpoint132

总结135

创建自定义Filter135

配置自定义Filter137

总结138

export工具138

import工具139

总结139

复制机制139

配置140

数据的确认141

总结141

第4章 Hive技巧142

SQL语句和HiveQL语句的书写方法的不同143

SELECT句中不存在的列不能排序147

NULL的处理147

ROWNUM关联148

总结148

标点字符、带圈字符的存在149

PK的存在149

加载数据149

Join时的数据保持方法150

WHERE句中的比较条件150

置换处理和UDF150

key数和Out Of Memory150

总结151

处理单位151

ORDER BY语句和SORT BY语句151

输出中间连接表152

MapReduce任务不发生的处理153

一次连接多个表153

总结153

查询高速化的探讨154

总结158

Hive的用户定义函数159

UDF的安装159

UDAF的实现161

使用用户定义函数164

总结165

什么是SerDe165

文本数据的情况(使用RegexSerDe)166

文本数据的情况(使用CSV用的非标准SerDe)167

结构化/二进制数据的场合(使用JSON用的非标准SerDe)169

总结171

使用TRANSFORM句171

使用UDAF174

总结176

使用注释176

使用模式177

使用锁定机制178

总结181

流程182

使用方法182

总结186

Hive的日志的种类187

通过Hive会话日志可以确认的内容187

总结190

Hive-HDFS-RDBMS的关系190

向Hive的直接导入191

文件形式和直接导入的关系193

列指定·WHERE条件指定195

指定了Hive的分区key的导入197

总结198

Hive→Oracle的差异数据的交换200

总结203

第5章 Pig技巧204

进行LOAD处理要实现的项目204

进行STORE处理需要实现的项目206

在一个UDF中实现LOAD和STORE的处理208

总结209

数据的保存方法209

MapReduce作业的评价方法210

用户单独的处理210

输出的日志211

总结211

Pig的用户定义函数211

用户定义函数中可以使用的数据类型212

用户定义函数的实现和使用方法212

总结218

Java中的PigLatin嵌入方法218

执行范例219

总结220

DESCRIBE:确认数据结构221

EXPLAIN:确认MapReduce的执行计划222

DUMP:显示处理内容225

总结226

数学函数226

字符串操作函数227

总结228

第6章 Mahout技巧229

可以做什么230

推荐(Recommendation)230

聚类(Clustering)230

分类(Classification)231

其他231

总结231

安装232

执行方法232

总结234

总结237

输入数据的形式237

处理的执行237

执行命令的内容238

与文本数据的对应239

总结247

输入数据248

执行关联分析248

执行结果文件250

总结251

从学习(预测模型)到预测的过程252

预测模型的构建和应用253

总结264

分布式并行化的必要性264

随机森林的分布式并行图像264

In-memory模式269

总结273

应用例子274

创建方法274

创建驱动程序276

使用驱动程序276

总结278

K平均法278

输入数据的形式278

输入数据的变换278

执行kmeans279

获取执行结果279

结果文件的内容280

总结280

第7章 ZooKeeper技巧281

客户端程序库282

简单的API282

与ZooKeeper的连接和断开282

znode的创建285

确认znode的存在288

从znode读取数据289

znode中写入数据290

删除znode291

获取子节点的列表291

总结293

认证方案293

ACL和权限293

ACL的设置(setACL)294

获取ACL(getACL)296

总结297

操作298

总结307

启动307

连接308

操作数据308

尝试监视310

完成311

总结312

体系结构312

Rest服务器的启动312

总结316

C客户端程序库319

总结320

什么是tickTime?321

设置方法321

设置其他tickTime影响的项目321

以其他tickTime为基准进行的处理324

总结325

什么是ZAB326

使用ZAB的ZooKeeper内部处理326

两阶段提交327

总结329

构成ensemble329

leader选出运算法则332

总结333

状态334

总结338

分组339

权重340

总结342

分布并行队列的实现342

总结351

什么是BookKeeper351

BookKeeper的基本操作354

尝试BookKeeper354

有效利用BookKeeper360

总结361

实现介绍361

使用方法365

使用示例366

总结366

热门推荐