图书介绍
Hadoop Hacks 中文版PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop Hacks 中文版](https://www.shukui.net/cover/5/35037821.jpg)
- (日)中野猛著 著
- 出版社: 北京:中国电力出版社
- ISBN:9787512346352
- 出版时间:2014
- 标注页数:374页
- 文件大小:58MB
- 文件页数:393页
- 主题词:数据处理软件
PDF下载
下载说明
Hadoop Hacks 中文版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
前言1
第1章 系统架构/运用技巧5
运行HDFS环境的参数6
运行MapReduce环境需要的参数7
总结8
文件描述符的设置9
Java的安装10
总结11
本技巧中介绍的HA的构成11
HA集群的构建过程13
疑难解答31
总结33
可以获取的统计信息34
总结40
关于CDH3同一版本间的更新41
总结42
准备43
理解操作43
使用Oracle的操作确认45
总结52
Sqoop的PostgreSQL联合功能53
在PostgreSQL中的使用53
PostgreSQL联合的挑战55
总结55
什么是Azkaban55
Azkaban的安装56
总结61
作业的定制61
总结66
第2章 应用程序开发技巧67
将Hadoop配置文件拷贝到外部应用程序67
从应用程序操作MapReduce68
总结69
什么是InMapperCombiner70
InMapperCombiner的实现方法70
总结72
自定义Writable类型主要分为两种73
如何生成一个Writable接口的子类73
总结75
自定义Partitioner的实现方法75
总结77
什么是DistributedCache78
DistributedCache的使用78
总结79
自定义CombineFileInputFormat的实现80
自定义CombineFileInputFormat的使用84
总结86
获取MRUnit Jar文件87
Map的测试87
Reduce的测试88
测试MapReduce作业88
总结89
生成自定义Writable90
生成GroupingComparatorClass90
生成PartitionerClass91
生成SortComparatorClass91
设置各个Comparator92
总结92
数据的内容93
Map端连接的代码93
输出结果94
单独读入文件进行连接94
总结95
数据的内容95
Map的定义95
Reduce的定义96
作业的定义96
输出结果97
总结97
定义作业98
总结100
InputFormat类100
OutputFormat类102
总结104
Cassandra的hadoop程序包内容105
Map类105
Reduce类106
定义作业106
总结107
获取文件系统信息108
操作HDFS的API109
总结111
分析的要点112
用计数器可以确认的项目112
处理结束后的确认方法113
经过一定时间后的确认方法114
作业历史的管理方法115
总结115
Hadoop中可以处理的压缩格式116
Hadoop中处理lzo压缩的准备116
在MapReduce程序中处理压缩文件117
在Hive中处理压缩文件120
总结121
第3章 HBase技巧122
importtsv工具122
completebulkload工具123
总结123
sqoop import124
自定义PutTransformer124
总结125
用于HFileOutputFormat的Mapper126
作业的设置126
总结127
Java API128
HBase shell129
总结129
什么是协处理器130
Observer130
Endpoint132
总结135
创建自定义Filter135
配置自定义Filter137
总结138
export工具138
import工具139
总结139
复制机制139
配置140
数据的确认141
总结141
第4章 Hive技巧142
SQL语句和HiveQL语句的书写方法的不同143
SELECT句中不存在的列不能排序147
NULL的处理147
ROWNUM关联148
总结148
标点字符、带圈字符的存在149
PK的存在149
加载数据149
Join时的数据保持方法150
WHERE句中的比较条件150
置换处理和UDF150
key数和Out Of Memory150
总结151
处理单位151
ORDER BY语句和SORT BY语句151
输出中间连接表152
MapReduce任务不发生的处理153
一次连接多个表153
总结153
查询高速化的探讨154
总结158
Hive的用户定义函数159
UDF的安装159
UDAF的实现161
使用用户定义函数164
总结165
什么是SerDe165
文本数据的情况(使用RegexSerDe)166
文本数据的情况(使用CSV用的非标准SerDe)167
结构化/二进制数据的场合(使用JSON用的非标准SerDe)169
总结171
使用TRANSFORM句171
使用UDAF174
总结176
使用注释176
使用模式177
使用锁定机制178
总结181
流程182
使用方法182
总结186
Hive的日志的种类187
通过Hive会话日志可以确认的内容187
总结190
Hive-HDFS-RDBMS的关系190
向Hive的直接导入191
文件形式和直接导入的关系193
列指定·WHERE条件指定195
指定了Hive的分区key的导入197
总结198
Hive→Oracle的差异数据的交换200
总结203
第5章 Pig技巧204
进行LOAD处理要实现的项目204
进行STORE处理需要实现的项目206
在一个UDF中实现LOAD和STORE的处理208
总结209
数据的保存方法209
MapReduce作业的评价方法210
用户单独的处理210
输出的日志211
总结211
Pig的用户定义函数211
用户定义函数中可以使用的数据类型212
用户定义函数的实现和使用方法212
总结218
Java中的PigLatin嵌入方法218
执行范例219
总结220
DESCRIBE:确认数据结构221
EXPLAIN:确认MapReduce的执行计划222
DUMP:显示处理内容225
总结226
数学函数226
字符串操作函数227
总结228
第6章 Mahout技巧229
可以做什么230
推荐(Recommendation)230
聚类(Clustering)230
分类(Classification)231
其他231
总结231
安装232
执行方法232
总结234
总结237
输入数据的形式237
处理的执行237
执行命令的内容238
与文本数据的对应239
总结247
输入数据248
执行关联分析248
执行结果文件250
总结251
从学习(预测模型)到预测的过程252
预测模型的构建和应用253
总结264
分布式并行化的必要性264
随机森林的分布式并行图像264
In-memory模式269
总结273
应用例子274
创建方法274
创建驱动程序276
使用驱动程序276
总结278
K平均法278
输入数据的形式278
输入数据的变换278
执行kmeans279
获取执行结果279
结果文件的内容280
总结280
第7章 ZooKeeper技巧281
客户端程序库282
简单的API282
与ZooKeeper的连接和断开282
znode的创建285
确认znode的存在288
从znode读取数据289
znode中写入数据290
删除znode291
获取子节点的列表291
总结293
认证方案293
ACL和权限293
ACL的设置(setACL)294
获取ACL(getACL)296
总结297
操作298
总结307
启动307
连接308
操作数据308
尝试监视310
完成311
总结312
体系结构312
Rest服务器的启动312
总结316
C客户端程序库319
总结320
什么是tickTime?321
设置方法321
设置其他tickTime影响的项目321
以其他tickTime为基准进行的处理324
总结325
什么是ZAB326
使用ZAB的ZooKeeper内部处理326
两阶段提交327
总结329
构成ensemble329
leader选出运算法则332
总结333
状态334
总结338
分组339
权重340
总结342
分布并行队列的实现342
总结351
什么是BookKeeper351
BookKeeper的基本操作354
尝试BookKeeper354
有效利用BookKeeper360
总结361
实现介绍361
使用方法365
使用示例366
总结366