大数据原理 复杂信息的准备 共享和分析PDF格式文档图书下载
- 购买点数:10 点
- 作 者:(美)朱尔斯J.伯曼著
- 出 版 社:北京:机械工业出版社
- 出版年份:2017
- ISBN:9787111572169
- 标注页数:204 页
- PDF页数:218 页
第0章 引言 1
0.1大数据的定义 2
0.2大数据VS小数据 2
0.3大数据在哪里 4
0.4大数据最常见的目的是产生小数据 5
0.5机会 6
0.6大数据成为信息宇宙的中心 6
第1章 为非结构化数据提供结构 8
1.1背景 8
1.2机器翻译 9
1.3自动编码 11
1.4索引 14
1.5术语提取 16
第2章 标识、去标识和重标识 19
2.1背景 19
2.2标识符系统的特征 20
2.3注册唯一对象标识符 21
2.4糟糕的标识方法 24
2.5在标识符中嵌入信息:不推荐 25
2.6单向哈希函数 26
2.7案例:医院登记 27
2.8去标识化 28
2.9数据清洗 29
2.10重标识 30
2.11经验教训 31
第3章 本体论和语义学 32
3.1背景 32
3.2分类:最简单的本体 32
3.3本体:有多个父类的类 34
3.4分类模型选择 35
3.5资源描述框架模式简介 38
3.6本体开发的常见陷阱 40
第4章 内省 42
4.1背景 42
4.2自我认知 42
4.3可扩展标记语言 44
4.4 meaning简介 45
4.5命名空间与有意义的声明集合体 46
4.6资源描述框架三元组 47
4.7映射 49
4.8案例:可信时间戳 50
4.9总结 50
第5章 数据集成和软件互操作性 52
5.1背景 52
5.2调查标准委员会 53
5.3标准轨迹 53
5.4规范与标准 56
5.5版本控制 58
5.6合规问题 60
5.7大数据资源接口 60
第6章 不变性和永久性 62
6.1背景 62
6.2不变性和标识符 63
6.3数据对象 64
6.4遗留数据 65
6.5数据产生数据 67
6.6跨机构协调标识符 67
6.7零知识协调 68
6.8管理者的负担 69
第7章 测量 70
7.1背景 70
7.2计数 70
7.3基因计数 72
7.4处理否定 73
7.5理解控制 74
7.6测量的实践意义 75
7.7强迫症:伟大数据管理员的标志 76
第8章 简单有效的大数据技术 77
8.1背景 77
8.2观察数据 78
8.3数据范围 85
8.4分母 87
8.5频率分布 89
8.6均值和标准差 92
8.7估计分析 94
8.8案例:用谷歌Ngram发现数据趋势 95
8.9案例:预测观众的电影偏好 97
第9章 分析 99
9.1背景 99
9.2分析任务 99
9.3聚类、分类、推荐和建模 100
9.3.1聚类算法 100
9.3.2分类算法 101
9.3.3推荐算法 101
9.3.4建模算法 101
9.4数据约简 103
9.5数据标准化和调整 105
9.6大数据软件:速度和可扩展性 107
9.7寻找关系而非相似之处 108
第10章 大数据分析中的特殊注意事项 111
10.1背景 111
10.2数据搜索理论 111
10.3理论搜索中的数据 112
10.4过度拟合 113
10.5巨大的偏差 113
10.6数据太多 116
10.7数据修复 116
10.8大数据的数据子集:不可加和不传递 117
10.9其他大数据缺陷 117
第11章 逐步走进大数据分析 120
11.1背景 120
11.2步骤1:制定一个问题 120
11.3步骤2:资源评价 121
11.4步骤3:重新制定一个问题 121
11.5步骤4:查询输出充分性 122
11.6步骤5:数据描述 122
11.7步骤6:数据约简 123
11.8步骤7:必要时选择算法 123
11.9步骤8:结果评估和结论断言 124
11.10步骤9:结论审查和验证 125
第12章 失败 127
12.1背景 127
12.2失败很常见 128
12.3失败的标准 128
12.4复杂性 131
12.5复杂性何时起作用 132
12.6冗余失败的情况 132
12.7保护钱,不保护无害信息 133
12.8失败之后 134
12.9案例:癌症生物医学信息学网格——遥远的桥 135
第13章 合法性 140
13.1背景 140
13.2对数据的准确性和合法性负责 140
13.3创建、使用和共享资源的权利 141
13.4因使用标准而招致的版权和专利侵权行为 143
13.5对个人的保护 144
13.6许可问题 145
13.7未经许可的数据 148
13.8好政策是有力保障 150
13.9案例:哈瓦苏派的故事 151
第14章 社会问题 153
14.1背景 153
14.2大数据感知 153
14.3数据共享 155
14.4用大数据降低成本和提高生产效率 158
14.5公众的疑虑 160
14.6从自己做起 161
14.7傲慢和夸张 162
第15章 未来 164
15.1背景 164
15.1.1大数据计算复杂,需要新一代超级计算机? 165
15.1.2大数据的复杂程度将超出我们完全理解或信任的能力范围? 166
15.1.3我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗? 166
15.1.4大数据会创建出那些目前没有训练程序的新型数据专业人员吗? 166
15.1.5是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能? 169
15.1.6大数据将向公众开放 169
15.1.7大数据弊大于利? 170
15.1.8我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗? 171
15.1.9大数据可以回答那些其他办法不能解决的问题吗? 171
15.2后记 171
术语表 172
参考文献 188
索引 196
- 《大数据原理 复杂信息的准备 共享和分析》(美)朱尔斯J.伯曼著 2017
- 《发现数据之美 数据分析原理与实践》彭鸿涛,聂磊著 2014
- 《重大自然灾害应急空间数据共享机制研究》范一大等著 2014
- 《小流域监测评价数据共享机制研究》英国赠款小流域治理管理项目执行办公室编 2008
- 《地理监测原理与应用》李建松,周军其编著 2014
- 《科学数据共享的知识产权保护机制研究》李琰著 2019
- 《地球系统科学数据集成共享研究 标准视角》王卷乐著 2015
- 《科学数据共享关键技术》李晓波等著 2007
- 《会计数据的网络流分析 对复式簿记原理的探索》黄平生著 2013
- 《传染病流行病学数据共享平台设计与实现》马家奇著 2010
- 《大数据原理 复杂信息的准备 共享和分析》(美)朱尔斯J.伯曼著 2017
- 《运筹学导论 第8版》(美)弗雷德里克·S. 希利尔(Frederick S. Hillier),(美)杰拉尔德·J. 利伯曼(Gerald J. Lieberman)著;胡运权等译 2007
- 《电子供应链管理》(美)查尔斯·C.波里尔(Charles c. Poirier),(美)迈克尔·J.鲍尔(Michael J. Bauer)著;谢冬梅等译 2002
- 《等离子体放电原理与材料处理》(美)迈克尔·A.力伯曼(Michael A. Lieberman),(美)阿伦·J.里登伯格(Allan J. Lichtenberg)著;蒲以康等译 2007
- 《世界文明史 上 第4版》(美)菲利普·J. 阿德勒(Philip J. Adler),(美)兰德尔·L. 波韦尔斯(Randall L. Pouwels)著 2012
- 《稳健性》(美)拉尔斯·彼得·汉森(Lars Peter Hansen),(美)托马斯·J.萨金特(Thomas J.Sargent)著 2016
- 《青少年身体使用手册》(美)凯西·麦考伊,查尔斯·威伯曼著;沈嘉琪译 2008
- 《学校管理》(美)托马斯·J.兰德斯(T.J.Landers),(美)朱迪思·G.迈尔斯(J.G.Myers)著;毛祖桓译 1983
- 《食物的乐趣》(美)福莱曼(Freymann,S.),(美)艾弗尔斯(Elffers,J.)著;喻苗译 2007
- 《经济学》(美)瓦尔特·J.威赛尔斯(Walter J. Wessels)著;沈国华译 2004
- 《北京志 工业卷 机械工业志 农机工业志》北京市地方志编纂委员会编 2001
- 《机械工业和机械图书的出版发行 机械工业出版社发行培训教材》陈慧毅,杨少晨编 1988
- 《冷冲模设计》赵孟栋主编 2006
- 《机械工业出版社》慕拉维叶夫著;孔庆复译 1959
- 《北京市立高级工业职业学校机械科毕业学生韩丕纯分数表/韩丕纯毕业证书》 1949
- 《中等职业教育机电类规划教材 机械工业出版社精品教材 机械设计基础 第2版》机械职业教育基础课教学指导委员会机械设计学科组组编;柴鹏飞主编 2006
- 《集知播识春秋录 机械工业出版社 1952-1988.机械科学技术情报研究所 1958-1988》机械科技情报研究所,机械工业出版社编 1988
- 《电线电缆》上海市电缆研究所编 1975
- 《FoxBASE+ 三周通》文忠等编著 1995
- 《FoxBASE+实验指导书》李爱华,王建诚编 1994