大数据分析 R基础及应用PDF格式文档图书下载
- 购买点数:9 点
- 作 者:深圳国泰安教育技术股份有限公司 中科院深圳先进技术研究院-国泰安金融大数据研究中心编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2016
- ISBN:9787302428633
- 标注页数:187 页
- PDF页数:196 页
第一部分 大数据简介 3
第1章 大数据概述 3
1.1 大数据的概念 3
1.2 大数据的特征 4
1.3 大数据的产生 4
1.4 大数据应用案例 4
第2章 大数据相关技术 6
2.1 数据采集和准备 6
2.2 分布式数据库 7
2.3 分布式数据分析框架 9
2.3.1 Hadoop 9
2.3.2 HDFS 10
2.3.3 HBase 11
2.3.4 Hive 11
2.3.5 MapReduce 11
2.3.6 Strom 12
2.4 大数据分析与R 13
2.4.1 RHadoop 13
2.4.2 RHIPE 15
2.4.3 RHive 15
2.4.4 RHBase 16
2.5 国泰安的大数据 16
2.5.1 大数据实验室建设 16
2.5.2 大数据分析平台 19
第二部分 R 语言 23
第3章 R语言简介 23
3.1 R语言概述 23
3.2 R的下载、安装和使用 24
3.2.1 RGui界面 24
3.2.2 RStudio界面 27
3.2.3 R的运行 29
3.2.4 工作目录和工作空间 30
3.2.5 R语言的帮助 32
3.3 R的包 33
3.3.1 包的获取 33
3.3.2 包的安装 36
3.3.3 包的加载 40
3.3.4 包的使用 41
第4章 R语言基本操作 42
4.1 数据结构 42
4.2 数据的基本操作 43
4.2.1 赋值和创建 43
4.2.2 数据的运算 49
4.2.3 数据的导入 50
4.3 数据的管理 52
4.3.1 数据排序 52
4.3.2 数据集的合并 53
4.3.3 剔除变量 54
4.3.4 数据集提取 54
4.3.5 subset函数 55
4.4 常用函数 56
第5章 R语言绘图 57
5.1 绘图参数 57
5.1.1 符号、线条与颜色 59
5.1.2 标题、坐标轴与图例 61
5.1.3 文本属性 63
5.1.4 图形的组合 65
5.2 高级绘图函数 66
5.2.1 通用二维图 67
5.2.2 饼图 67
5.2.3 箱线图 68
5.2.4 条形图 71
5.2.5 直方图 72
5.2.6 核密度图 74
5.2.7 点图 76
5.3 低级绘图函数 77
第6章 R语言数据分析 79
6.1 数据处理基础函数 79
6.1.1 数学函数 79
6.1.2 统计函数 80
6.1.3 概率函数 81
6.1.4 数据分析实例 81
6.2 描述性统计分析 84
6.2.1 描述统计函数 84
6.2.2 软件包的描述统计 86
6.3 多元统计分析 88
6.3.1 方差分析 89
6.3.2 判别分析 91
6.3.3 聚类分析 92
6.3.4 主成分分析 94
6.3.5 因子分析 97
6.3.6 典型相关分析 101
第三部分 专题实证研究 107
第7章 金融时间序列建模专题 107
7.1 金融时间序列 107
7.2 ARMA模型 110
7.2.1 ARMA模型简介 110
7.2.2 ARMA模型定阶 110
7.2.3 ARMA模型拟合 111
7.3 GARCH模型 112
7.3.1 GARCH模型简介 112
7.3.2 GARCH模型拟合 112
第8章 动态面板数据专题 114
8.1 GMM估计 114
8.1.1 系统GMM估计 114
8.1.2 GMM估计原理 115
8.2 动态面板数据模型的系统GMM估计 115
第9章 数据挖掘专题 121
9.1 关联规则 121
9.2 降维分析 122
9.3 社交网络分析 125
9.4 贝叶斯分类法 128
9.4.1 贝叶斯定理 128
9.4.2 贝叶斯分类实例 128
9.5 决策树 130
9.5.1 决策树原理 130
9.5.2 决策树分类实例 131
9.6 人工神经网络 133
9.6.1 三层前馈神经网络原理 133
9.6.2 神经网络分类实例 134
9.7 支持向量机 136
9.7.1 支持向量机原理 136
9.7.2 支持向量机分类实例 137
第10章 信息可视化专题 140
10.1 绘制地图 140
10.1.1 世界地图 141
10.1.2 中国地图 141
10.1.3 公路线图 142
10.2 可视化实例 144
10.2.1 数据 144
10.2.2 ggmap 145
第四部分 RHadoop案例分析 153
第11章 RHadoop的基本操作 153
11.1 数据文件的读取 153
11.2 包的加载 154
11.3 基本函数 155
第12章 RHadoop 环境下案例分析 157
12.1 回归分析 157
12.1.1 回归分析原理 157
12.1.2 线性回归分析案例 158
12.2 Logistic分析 161
12.2.1 Logistic分析原理 161
12.2.2 Logistic分析案例 162
12.3 判别分析 163
12.3.1 线性判别分析原理 163
12.3.2 线性判别分析案例 164
12.4 聚类分析 167
12.4.1 K-means聚类分析原理 167
12.4.2 K-means聚类分析案例 168
12.5 主成分分析 170
12.5.1 主成分分析原理 170
12.5.2 主成分分析案例 171
12.6 因子分析 173
12.6.1 因子分析原理 173
12.6.2 因子分析案例 174
12.7 商品推荐算法 176
12.7.1 商品推荐算法原理 176
12.7.2 商品推荐案例 177
12.8 差异分析 179
12.8.1 多维标度法的原理 179
12.8.2 差异分析案例 180
附录一 国泰安CSMAR数据下载 182
附录二 深圳国泰安教育技术股份有限公司简介 184
参考文献 186
- 《大数据时代数据仓库技术研究》王会举著 2016
- 《数据分析与云计算技术研究》闫岩著 2019
- 《大数据技术及其背景下的数据挖掘研究》吴春琼著 2019
- 《高维数据挖掘技术研究》杨风召著 2007
- 《心理与教育研究数据处理技术》韦义平编著 2002
- 《海量数据挖掘技术研究》刘君强著 2010
- 《国家水文数据库建设技术研究》张建新,曹国荣编著 2009
- 《基因表达数据布局聚类技术研究》印莹,赵宇海著 2015
- 《数据仓库与数据挖掘技术》夏火松主编 2004
- 《医学图像数据挖掘关键技术的研究》潘海为著 2007
- 《大数据导论 关键技术与行业应用最佳实践》深圳国泰安教育技术股份有限公司大数据事业部群,中科院深圳先进技术研究院——国泰安金融大数据研究中心编著 2015
- 《大数据分析 R基础及应用》深圳国泰安教育技术股份有限公司,中科院深圳先进技术研究院-国泰安金融大数据研究中心编著 2016
- 《计算机视觉增强现实美术内容设计》深圳中科呼图信息技术有限公司编著 2017
- 《智慧管廊全生命周期BIM应用指南》中冶京诚工程技术有限公司,深圳市市政设计研究院有限公司主编 2019
- 《世界有色金属工厂》中国有色金属工业总公司技术经济研究中心,中国有色金属工业总公司深圳联营展销中心编译 1989
- 《丝路视野》深圳丝路数码技术有限公司编著 2010
- 《住宅标准化产品图库 第1册 简装版》深圳市建筑设计研究总院有限公司,卓越置业集团有限公司,深圳市协鹏建筑与工程设计有限公司编著 2009
- 《木工基础及工艺流程》瑞丰林业(深圳)有限公司职业技术教育培训中心主编 2006
- 《油漆涂装及工艺流程》瑞丰木业(深圳)有限公司职业技术教育培训中心编著 2006
- 《核心期刊与期刊评价文选》中国科学技术信息研究所,万方数据股份有限公司期刊上网组 2222
- 《THE GOVERNMENT/PRESS CONNECTION PRESS OFFICERS AND THEIR OFFICES》STEPHEN HESS 1984
- 《PRESS》POLITICS & PUBLIC OPINION IN BIHAR 1912-1947 2010
- 《Press law》Robin Callender Smith. 1978
- 《SUING THE PRESS》RODNEY A.SMOLLA 1986
- 《THE PRESS AND AMERICA》 2222
- 《FREEDOM OF THE PRESS》ERIC BARENDT 2009
- 《FREEDOM OF THE PRESS》ROB EDELMAN 2006
- 《FREEDOM OF THE PRESS》DAVID L.GEBERT 2005
- 《Racism and the press》Teun A.van Dijk 2016
- 《Im spiegel per presse 1》Albert Schmitz 1983