图书介绍

大数据核心技术与实用算法PDF|Epub|txt|kindle电子书版本网盘下载

大数据核心技术与实用算法
  • 陈明编著 著
  • 出版社: 北京:北京师范大学出版社
  • ISBN:9787303228096
  • 出版时间:2017
  • 标注页数:484页
  • 文件大小:66MB
  • 文件页数:497页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据核心技术与实用算法PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据技术概述1

1.1 大数据技术的主要内容2

1.1.1 大数据技术框架2

1.1.2 知识表示4

1.1.3 知识发现模型6

1.1.4 大数据分析基本技术14

1.2 大数据技术的特征18

1.2.1 分析全面的数据,而非随机抽样18

1.2.2 重视数据的复杂性,弱化精确性18

1.2.3 关注数据的相关性,而非因果关系19

1.2.4 学习算法复杂度19

1.3 大数据对计算机科学的冲击与挑战20

1.3.1 机器学习20

1.3.2 软件工程30

1.3.3 算法设计32

1.3.4 预测分析33

1.3.5 推荐技术36

1.3.6 存储技术40

1.3.7 数据安全42

1.3.8 可视化45

1.3.9 数据库技术46

1.3.10 数据挖掘49

1.3.11 数据分析技术54

1.3.12 计算机体系结构55

1.4 大数据研究方法论56

1.4.1 科学研究范式56

1.4.2 数据密集型科学研究范式57

1.5 常用的大数据计算框架62

小结63

第2章 大数据获取与存储65

2.1 数据获取的定义与数据领域66

2.1.1 数据获取定义66

2.1.2 数据获取领域66

2.2 NewSQL和NoSQL69

2.2.1 典型的数据库架构69

2.2.2 BigTatle数据库72

2.2.3 MongoDB数据库75

2.3 分布式文件系统77

2.3.1 分布式文件系统的评价指标78

2.3.2 Hadoop文件系统79

2.3.3 NFS文件系统85

2.4 虚拟存储技术86

2.4.1 虚拟存储特点87

2.4.2 虚拟存储的应用87

2.5 云存储88

2.5.1 云存储原理88

2.5.2 网络结构88

2.5.3 云的分类89

2.6 分布式存储核心算法90

2.6.1 哈希算法90

2.6.2 一致性哈希算法91

2.7 数据仓库与数据集市95

2.7.1 数据仓库的特点95

2.7.2 数据仓库的建立方法97

2.7.3 数据集市98

2.7.4 元数据100

2.8 区块链技术102

2.8.1 区块链技术原理102

2.8.2 区块链技术特性104

2.8.3 区块链分类104

小结105

第3章 大数据抽取技术107

3.1 数据抽取技术概述108

3.1.1 数据抽取的定义108

3.1.2 数据映射与数据迁移109

3.1.3 数据抽取程序109

3.1.4 ETL110

3.1.5 数据抽取方式111

3.2 增量数据抽取技术112

3.2.1 增量抽取的特点与策略112

3.2.2 基于触发器的增量抽取方式113

3.2.3 基于时间戳的增量抽取方式114

3.2.4 全表删除插入方式115

3.2.5 全表比对抽取方式116

3.2.6 日志表方式116

3.2.7 系统日志分析方式117

3.2.8 基于CDC与物化视图的数据抽取117

3.2.9 各种数据抽取机制的比较120

3.3 非结构化数据抽取122

3.3.1 非结构化数据类型123

3.3.2 非结构化数据模型123

3.3.3 非结构化数据组织125

3.3.4 纯文本抽取通用程序库127

3.4 Web数据抽取128

3.4.1 Web数据抽取问题的提出128

3.4.2 Web数据抽取的目的与分类129

3.4.3 Web数据抽取方法131

3.4.4 Web数据抽取过程136

小结137

第4章 大数据清洗技术139

4.1 数据质量与数据清洗140

4.1.1 数据质量140

4.1.2 数据质量提高技术143

4.1.3 数据清洗算法的衡量标准146

4.1.4 数据清洗的过程与模型146

4.1.5 数据清洗技术面临的问题148

4.2 不完整数据的清洗方法148

4.2.1 方法简介148

4.2.2 基于k-NN近邻缺失数据的填充算法154

4.2.3 基于决策树的缺失数据的填充算法156

4.3 异常数据清洗163

4.3.1 异常值产生的原因与检测方法分类163

4.3.2 统计方法164

4.3.3 基于邻近度的离群点检测172

4.3.4 基于密度的离群点检测173

4.3.5 基于聚类的异常数据检测技术174

4.4 重复数据清洗176

4.4.1 使用字段相似度识别重复值算法177

4.4.2 数组中重复数据清除算法177

4.4.3 搜索引擎快速去重算法178

4.5 文本清洗179

4.5.1 字符串匹配算法179

4.5.2 文本相似度度量181

4.5.3 文档去重算法186

4.6 数据清洗的实现187

4.6.1 数据清洗的步骤187

4.6.2 数据清洗的工具188

小结188

第5章 大数据转换与约简189

5.1 数据平滑190

5.1.1 移动平均法190

5.1.2 指数平滑法193

5.1.3 分箱平滑法198

5.1.4 普拉斯平滑法200

5.2 数据规范化200

5.2.1 最小-最大规范化方法200

5.2.2 z分数规范化方法201

5.2.3 小数定标规范化方法201

5.3 数据泛化202

5.3.1 空间数据支配泛化算法202

5.3.2 非空间数据支配泛化算法203

5.3.3 统计信息网格方法203

5.4 数据约简205

5.4.1 数据约简定义与策略205

5.4.2 数据立方体聚集206

5.4.3 维约简207

5.5 数据压缩211

5.6 数值约简213

5.6.1 有参数值约简214

5.6.2 无参数值约简214

5.7 数值数据离散化与概念分层216

5.7.1 基于数值属性的概念分层216

5.7.2 数值数据的离散化217

小结223

第6章 大数据集成225

6.1 数据集成技术概述226

6.1.1 数据集成的概念与相关问题226

6.1.2 数据集成的核心问题229

6.1.3 数据集成的分类230

6.2 数据迁移232

6.2.1 内部数据移动233

6.2.2 非结构化数据集成234

6.2.3 将处理移动到数据端235

6.3 数据集成模式235

6.3.1 联邦数据库集成模式236

6.3.2 中间件集成模式237

6.3.3 数据仓库集成模式238

6.4 数据集成系统239

6.4.1 全局模式240

6.4.2 语义映射240

6.4.3 查询重写241

6.5 数据集成系统的构建241

6.5.1 模式之间映射关系的生成241

6.5.2 适应性查询241

6.5.3 XML242

6.5.4 P2P数据管理242

6.6 数据聚类集成242

6.6.1 数据聚类集成概述243

6.6.2 高维数据聚类集成243

6.7 实时数据集成246

6.7.1 基于中间件层的实时数据集成模式246

6.7.2 基于数据源层和中间件层的实时数据集成模式247

6.7.3 基于数据仓库和中间件层的集成模式247

6.7.4 基于数据网格的实时数据集成模式248

6.8 企业信息集成249

6.8.1 数据集成对于企业信息系统的作用250

6.8.2 企业信息集成的类型250

6.8.3 企业信息集成的功能251

6.8.4 信息集成的方法252

小结252

第7章 大数据分析253

7.1 大数据分析定义与方法254

7.1.1 大数据分析的类型255

7.1.2 统计方法论255

7.1.3 模型与构建256

7.2 统计分析的基本方法259

7.2.1 指标对比分析259

7.2.2 分组分析260

7.2.3 综合评价分析261

7.2.4 指数分析262

7.2.5 平衡分析262

7.2.6 趋势分析263

7.2.7 显著性检验265

7.2.8 结构分析268

7.2.9 因素分析268

7.2.10 交叉分析269

7.2.11 漏斗图分析269

7.3 高级数据分析方法270

7.3.1 动态分析270

7.3.2 相关分析271

7.3.3 回归分析274

7.3.4 判别分析278

7.3.5 对应分析281

7.3.6 主成分分析281

7.3.7 多维尺度分析283

7.3.8 方差分析286

7.4 预测分析288

7.4.1 预测的基本原理288

7.4.2 预测方法289

7.4.3 主要的预测模型291

7.4.4 大数据预测分析要素293

7.4.5 大数据预测的步骤294

7.5 大数据预测分析的应用趋势295

7.5.1 大数据预测分析的演化295

7.5.2 大数据预测分析相关问题296

7.5.3 预测技术的应用297

小结298

第8章 数据挖掘299

8.1 数据挖掘理论基础300

8.1.1 数据挖掘是面向实际应用的技术300

8.1.2 数据挖掘的理论基础301

8.1.3 基于不同数据存储方式的数据挖掘302

8.2 关联规则挖掘304

8.2.1 频繁项目集生成算法305

8.2.2 关联规则挖掘质量308

8.3 分类309

8.3.1 分类定义与分类步骤309

8.3.2 基于距离的分类算法310

8.3.3 决策树分类方法311

8.3.4 贝叶斯分类314

8.4 聚类方法317

8.4.1 聚类算法分类317

8.4.2 距离与相似性的度量319

8.4.3 划分聚类方法320

8.4.4 层次聚类方法322

8.4.5 密度聚类方法323

8.5 序列模式挖掘325

8.5.1 时间序列预测的常用方法325

8.5.2 序列模式挖掘326

8.6 Web挖掘技术328

8.6.1 Web内容挖掘方法328

8.6.2 Web访问信息挖掘方法331

8.6.3 Web结构挖掘方法333

8.7 空间数据挖掘334

8.7.1 空间统计学335

8.7.2 空间聚类算法336

8.8 非结构化文本数据挖掘339

8.8.1 用户反馈文本340

8.8.2 用户反馈文本挖掘的一般过程341

8.8.3 文本的自然语言处理343

小结344

第9章 大数据分析结果解释345

9.1 数据分析结果的解释346

9.1.1 数据解释的目的与主要内容346

9.1.2 检查和验证假设346

9.1.3 追踪分析过程348

9.2 数据的基本展现方式348

9.2.1 基于时间变化的可视化展现349

9.2.2 由大及小的可视化展现349

9.2.3 由小及大的可视化展现349

9.2.4 突出对比的可视化展现350

9.2.5 地域空间可视化展现351

9.2.6 概念可视化展现354

9.2.7 气泡图可视化展现354

9.2.8 注重交叉点的数据可视化展现355

9.2.9 剖析原因的数据可视化展现355

9.2.10 描绘出异常值355

9.3 大数据可视化355

9.3.1 文本可视化355

9.3.2 网络(图)可视化358

9.3.3 时空数据可视化360

9.3.4 多维数据可视化362

9.4 大数据可视分析363

9.4.1 可视分析的理论基础364

9.4.2 大数据可视分析技术368

小结371

第10章 大数据离线计算技术373

10.1 数据离线计算概述374

10.1.1 大数据离线处理特点374

10.1.2 批量计算374

10.2 MapReduce的体系结构375

10.2.1 MapReduce计算描述375

10.2.2 MapReduce适用情况377

10.3 Hadoop分布式计算平台377

10.3.1 Hadoop的结构与特点378

10.3.2 分布式系统与Hadoop380

10.3.3 SQL数据库与Hadoop381

10.3.4 基于Hadoop框架的分布计算382

10.3.5 单数计数程序分析387

小结390

第11章 大数据流式计算技术391

11.1 流式数据的概念与特征392

11.1.1 流式数据的概念392

11.1.2 流式数据源393

11.1.3 流式数据的特征395

11.1.4 实时流计算的场景396

11.2 大数据的流式计算模式397

11.2.1 大数据流式计算模型398

11.2.2 大数据流式计算与批量计算的比较398

11.2.3 流式计算与实时计算的区别400

11.3 数据流处理400

11.3.1 流式数据处理器400

11.3.2 流式计算的问题401

11.4 流式计算的场景402

11.4.1 基本流式计算402

11.4.2 流式查询403

11.4.3 流式抽样404

11.4.4 统计独立元素数405

11.4.5 去重计数406

11.4.6 流过滤411

11.4.7 矩估计413

11.4.8 基于窗口计数414

11.5 流式计算的系统架构418

11.5.1 对称式系统架构418

11.5.2 主从式系统架构419

11.5.3 数据传输方式419

11.5.4 编程接口420

11.6 高可用技术420

11.6.1 被动等待策略420

11.6.2 主动等待策略421

11.6.3 上游备份策略421

11.7 Storm流式数据处理平台422

11.7.1 Storm的特点与架构422

11.7.2 Topology426

11.7.3 Spout和Bolt427

11.7.4 数据流组427

11.7.5 Storm流式数据处理平台的并发机制429

11.8 单词计数Topology431

11.8.1 单词计数Topology的数据流431

11.8.2 单词计数Topology程序设计432

小结438

第12章 大数据交互式处理技术439

12.1 交互式处理系统的问题440

12.2 数据切分441

12.2.1 数据切分的概念441

12.2.2 数据切分的目的442

12.3 数据钻取442

12.3.1 向上钻取442

12.3.2 向下钻取443

12.3.3 钻取到模板443

12.3.4 在图形上钻取443

12.4 Scala编程语言简介443

12.4.1 Scala语言特性443

12.4.2 Scala程序执行方式与基本语法445

12.5 交互式大数据处理框架Spark459

12.5.1 Spark的主要特点459

12.5.2 软件栈460

12.5.3 核心概念463

12.5.4 RDD464

12.5.5 实例分析与编程480

12.6 交互式查询481

12.6.1 交互式查询的主要方法481

12.6.2 Spark交互式查询482

小结482

参考文献483

热门推荐