图书介绍
Hadoop实战手册PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop实战手册](https://www.shukui.net/cover/13/35054945.jpg)
- (美)欧文斯,(美)伦茨,(美)费米亚诺著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115337955
- 出版时间:2014
- 标注页数:242页
- 文件大小:38MB
- 文件页数:261页
- 主题词:数据处理软件-技术手册
PDF下载
下载说明
Hadoop实战手册PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 Hadoop分布式文件系统——导入和导出数据1
1.1介绍1
1.2使用Hadoop shell命令导入和导出数据到HDFS2
1.3使用distcp实现集群间数据复制7
1.4使用Sqoop从MySQL数据库导入数据到HDFS9
1.5使用Sqoop从HDFS导出数据到MySQL12
1.6配置Sqoop以支持SQL Server15
1.7从HDFS导出数据到MongoDB17
1.8从MongoDB导入数据到HDFS20
1.9使用Pig从HDFS导出数据到MongoDB23
1.10在Greenplum外部表中使用HDFS24
1.11利用Flume加载数据到HDFS中26
第2章 HDFS28
2.1介绍28
2.2读写HDFS数据29
2.3使用LZO压缩数据31
2.4读写序列化文件数据34
2.5使用Avro序列化数据37
2.6使用Thrift序列化数据41
2.7使用Protocol Buffers序列化数据44
2.8设置HDFS备份因子48
2.9设置HDFS块大小49
第3章 抽取和转换数据51
3.1介绍51
3.2使用MapReduce将Apache日志转换为TSV格式52
3.3使用Apache Pig过滤网络服务器日志中的爬虫访问量54
3.4使用Apache Pig根据时间戳对网络服务器日志数据排序57
3.5使用Apache Pig对网络服务器日志进行会话分析59
3.6通过Python扩展Apache Pig的功能61
3.7使用MapReduce及二次排序计算页面访问量62
3.8使用Hive和Python清洗、转换地理事件数据67
3.9使用Python和Hadoop Streaming执行时间序列分析71
3.10在MapReduce中利用MultipleOutputs输出多个文件75
3.11创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据78
第4章 使用Hive、Pig和MapReduce处理常见的任务85
4.1介绍85
4.2使用Hive将HDFS中的网络日志数据映射为外部表86
4.3使用Hive动态地为网络日志查询结果创建Hive表87
4.4利用Hive字符串UDF拼接网络日志数据的各个字段89
4.5使用Hive截取网络日志的IP字段并确定其对应的国家92
4.6使用MapReduce对新闻档案数据生成n-gram94
4.7通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行98
4.8使用Pig加载一个表并执行包含GROUP BY的SELECT操作102
第5章 高级连接操作104
5.1介绍104
5.2使用MapReduce对数据进行连接104
5.3使用Apache Pig对数据进行复制连接108
5.4使用Apache Pig对有序数据进行归并连接110
5.5使用Apache Pig对倾斜数据进行倾斜连接111
5.6在Apache Hive中通过map端连接对地理事件进行分析113
5.7在Apache Hive通过优化的全外连接分析地理事件数据115
5.8使用外部键值存储(Redis)连接数据118
第6章 大数据分析123
6.1介绍123
6.2使用MapReduce和Combiner统计网络日志数据集中的独立IP数124
6.3运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序129
6.4使用Hive创建基于地理事件数据的每月死亡报告131
6.5实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性133
6.6使用Hive的map/reduce操作以及Python标记最长的无暴力发生的时间区间136
6.7使用Pig计算 Audioscrobbler数据集中艺术家之间的余弦相似度141
6.8使用Pig以及datafu剔除Audioscrobbler数据集中的离群值145
第7章 高级大数据分析147
7.1介绍147
7.2使用Apache Giraph计算PageRank147
7.3使用Apache Giraph计算单源最短路径150
7.4使用Apache Giraph执行分布式宽度优先搜索158
7.5使用Apache Mahout计算协同过滤165
7.6使用Apache Mahout进行聚类168
7.7使用Apache Mahout进行情感分类171
第8章 调试174
8.1介绍174
8.2在MapReduce中使用Counters监测异常记录174
8.3使用MRUnit开发和测试MapReduce177
8.4本地模式下开发和测试MapReduce179
8.5运行MapReduce作业跳过异常记录182
8.6在流计算作业中使用Counters184
8.7更改任务状态显示调试信息185
8.8使用illustrate调试Pig作业187
第9章 系统管理189
9.1介绍189
9.2在伪分布模式下启动Hadoop189
9.3在分布式模式下启动Hadoop192
9.4添加一个新节点195
9.5节点安全退役197
9.6 NameNode故障恢复198
9.7使用Ganglia监控集群199
9.8 MapReduce作业参数调优201
第10章 使用Apache Accumulo进行持久化204
10.1介绍204
10.2在Accumulo中设计行键存储地理事件205
10.3使用MapReduce批量导入地理事件数据到Accumulo213
10.4设置自定义字段约束Accumulo中的地理事件数据220
10.5使用正则过滤器限制查询结果225
10.6使用SumCombiner计算同一个键的不同版本的死亡数总和228
10.7使用Accumulo实行单元级安全的扫描232
10.8使用MapReduce聚集Accumulo中的消息源237