图书介绍
R语言PDF|Epub|txt|kindle电子书版本网盘下载
- 刘鹏,张燕总主编 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302494324
- 出版时间:2019
- 标注页数:247页
- 文件大小:25MB
- 文件页数:263页
- 主题词:程序语言-程序设计-教材
PDF下载
下载说明
R语言PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1为什么学习R语言1
1.1.1 R是什么1
1.1.2 R语言主要优势2
1.2正确的数据思维观4
1.2.1数学思维5
1.2.2统计思维5
1.2.3逻辑思维10
习题12
基础篇17
第2章 R语言入门17
2.1新手上路17
2.1.1两个例子17
2.1.2 R是什么19
2.2 R语言开发环境部署19
2.2.1安装R19
2.2.2安装RStudio20
2.3获取帮助22
2.3.1文档和搜索22
2.3.2演示22
2.3.3帮助函数23
2.4工作空间23
2.5脚本24
2.6 R包25
习题25
第3章 数据类型27
3.1变量与常量27
3.1.1变量27
3.1.2常量28
3.2结构类型28
3.2.1向量29
3.2.2矩阵31
3.2.3数组33
3.2.4数据框35
3.2.5因子36
3.2.6列表37
3.3字符串操作38
3.3.1基本操作38
3.3.2字符串处理stringr包39
3.4用于数据处理和转换的常用函数40
习题41
第4章 数据准备43
4.1数据导入43
4.1.1键盘输入数据44
4.1.2导入文本文件45
4.1.3导入Excel数据46
4.1.4导入数据库文件47
4.2数据导出48
4.2.1导出文本文件48
4.2.2保存图片49
习题49
第5章 数据可视化51
5.1低水平绘图命令51
5.1.1点51
5.1.2线54
5.1.3面56
5.2高水平绘图命令59
5.2.1认识ggplot259
5.2.2几何对象59
5.2.3映射60
5.2.4统计对象62
5.2.5标度63
5.2.6分面65
5.2.7其他修饰67
5.3交互式绘图命令69
5.3.1 rCharts包69
5.3.2 plotly包70
5.3.3 shiny72
习题80
第6章 数据探索82
6.1缺失值分析82
6.1.1与缺失值相关的几个概念82
6.1.2缺失值检测83
6.2异常值分析84
6.2.1箱线图检验离群点85
6.2.2散点图检测离群点86
6.2.3 LOF方法检测异常值87
6.2.4聚类方法检测异常值87
6.3不一致值分析88
6.4数据的统计特征分析88
6.4.1分布分析88
6.4.2对比分析90
6.4.3统计量分析91
6.4.4周期性分析93
6.4.5相关性分析94
习题97
第7章 数据变换100
7.1数据清洗100
7.1.1缺失数据处理100
7.1.2数据去重101
7.1.3规范化102
7.2数据选择103
7.2.1删除有75%以上相同数值的自变量103
7.2.2删除高相关性的自变量104
7.2.3重要变量的选择105
7.2.4数据集选择106
7.2.5主成分分析106
7.2.6因子分析108
7.3数据集成109
7.3.1通过向量化重构数据109
7.3.2为数据添加新变量110
7.3.3数据透视表112
7.3.4频度117
7.3.5数据整合118
7.3.6分组汇总121
习题124
第8章 高级编程126
8.1控制结构126
8.1.1选择结构程序设计126
8.1.2循环结构程序设计127
8.2用户自定义函数128
习题129
第9章 数据建模132
9.1 Rattle包132
9.2聚类模型139
9.2.1背景139
9.2.2 K-Means聚类139
9.2.3 Ewkm聚类142
9.2.4层次聚类(Hierachical)144
9.2.5双向聚类(BiCluster)146
9.3关联分析模型147
9.3.1背景147
9.3.2基本术语148
9.3.3关联规则的分类149
9.3.4 Apriori算法150
9.3.5实验指导151
9.4传统决策树模型153
9.4.1背景153
9.4.2 ID3算法155
9.4.3 C4.5算法156
9.4.4实验指导156
9.5随机森林决策树模型159
9.5.1背景159
9.5.2随机森林算法159
9.5.3实验指导161
9.6自适应选择决策树模型164
9.6.1背景164
9.6.2 Boosting算法164
9.6.3 adaboost算法165
9.6.4实验指导165
9.7 SVM169
9.7.1背景169
9.7.2 SVM算法169
9.7.3实验指导172
9.8线性回归模型173
9.8.1背景173
9.8.2一元线性回归方法173
9.8.3实验指导175
9.9神经网络模型175
9.9.1背景175
9.9.2人工神经网络模型176
9.9.3实验指导179
习题181
第10章 模型评估185
10.1数据集185
10.2混淆矩阵186
10.2.1二分类混淆矩阵186
10.2.2模型评价指标187
10.2.3多分类混淆矩阵188
10.3风险图188
10.3.1风险图的作用188
10.3.2实验指导189
10.4 ROC曲线191
10.4.1什么是ROC曲线191
10.4.2 ROC曲线作用191
10.4.3实验指导191
习题193
应用篇197
第11章 影响大学平均录取分数线因素分析197
11.1背景与目标197
11.2数据说明197
11.3描述性分析200
11.4总结与建议203
第12章 收视率分析204
12.1背景介绍204
12.2数据说明204
12.3描述性分析205
12.4总结与建议211
进阶篇215
第13章 RHadoop215
13.1认识RHadoop215
13.1.1为什么要让Hadoop结合R语言215
13.1.2 Mahout与R在做数据挖掘的区别216
13.2 RHadoop安装216
13.2.1依赖包安装216
13.2.2 RHadoop的特点219
13.3综合练习220
习题225
第14章 SparkR228
14.1认识SparkR228
14.1.1安装SparkR228
14.1.2在R或 Rstudio中调用SparkR228
14.2 SparkDataFrame229
14.3 SparkR支持的机器学习算法230
14.4综合练习230
14.4.1加载数据230
14.4.2 SparkDataFrame基本操作231
14.4.3从Spark上运行SQL查询233
14.4.4 SparkR操作hdfs上的文件233
14.4.5通过SparkR操作spark-sql以hive的表为对象234
习题234
参考文献236
附录 大数据和人工智能实验环境238