当前位置:首页 > 工业技术
机器学习实战

机器学习实战PDF格式文档图书下载

工业技术

图书介绍:本书共四部分15章,4个附录,分别从机器学习的定义、利用回归来预测数字价值、非监督式学习,以及其他工具等方面阐述了机器学习的基础概念和实践应用,为工程控制和企业的智能管理提供了专业而独到的见解。本书适合机器学习相关研究人员及互联网从业人员参考。

查看更多关于机器学习实战的内容

图书介绍

第一部分 分类 2

第1章 机器学习基础 2

1.1何谓机器学习 3

1.1.1传感器和海量数据 4

1.1.2机器学习非常重要 5

1.2关键术语 5

1.3机器学习的主要任务 7

1.4如何选择合适的算法 8

1.5开发机器学习应用程序的步骤 9

1.6 Python语言的优势 10

1.6.1可执行伪代码 10

1.6.2 Python比较流行 10

1.6.3 Python语言的特色 11

1.6.4 Python语言的缺点 11

1.7 NumPy函数库基础 12

1.8本章小结 13

第2章 k-近邻算法 15

2.1 k-近邻算法概述 15

2.1.1准备:使用Python导入数据 17

2.1.2从文本文件中解析数据 19

2.1.3如何测试分类器 20

2.2示例:使用k-近邻算法改进约会网站的配对效果 20

2.2.1准备数据:从文本文件中解析数据 21

2.2.2分析数据:使用Matplotlib创建散点图 23

2.2.3准备数据:归一化数值 25

2.2.4测试算法:作为完整程序验证分类器 26

2.2.5使用算法:构建完整可用系统 27

2.3示例:手写识别系统 28

2.3.1准备数据:将图像转换为测试向量 29

2.3.2测试算法:使用k-近邻算法识别手写数字 30

2.4本章小结 31

第3章 决策树 32

3.1决策树的构造 33

3.1.1信息增益 35

3.1.2划分数据集 37

3.1.3递归构建决策树 39

3.2在Python中使用Matplotlib注解绘制树形图 42

3.2.1 Matplotlib注解 43

3.2.2构造注解树 44

3.3测试和存储分类器 48

3.3.1测试算法:使用决策树执行分类 49

3.3.2使用算法:决策树的存储 50

3.4示例:使用决策树预测隐形眼镜类型 50

3.5本章小结 52

第4章 基于概率论的分类方法:朴素贝叶斯 53

4.1基于贝叶斯决策理论的分类方法 53

4.2条件概率 55

4.3使用条件概率来分类 56

4.4使用朴素贝叶斯进行文档分类 57

4.5使用Python进行文本分类 58

4.5.1准备数据:从文本中构建词向量 58

4.5.2训练算法:从词向量计算概率 60

4.5.3测试算法:根据现实情况修改分类器 62

4.5.4准备数据:文档词袋模型 64

4.6示例:使用朴素贝叶斯过滤垃圾邮件 64

4.6.1准备数据:切分文本 65

4.6.2测试算法:使用朴素贝叶斯进行交叉验证 66

4.7示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 68

4.7.1收集数据:导入RSS源 68

4.7.2分析数据:显示地域相关的用词 71

4.8本章小结 72

第5章 Logistic回归 73

5.1基于Logistic回归和Sigmoid函数的分类 74

5.2基于最优化方法的最佳回归系数确定 75

5.2.1梯度上升法 75

5.2.2训练算法:使用梯度上升找到最佳参数 77

5.2.3分析数据:画出决策边界 79

5.2.4训练算法:随机梯度上升 80

5.3示例:从疝气病症预测病马的死亡率 85

5.3.1准备数据:处理数据中的缺失值 85

5.3.2测试算法:用Logistic回归进行分类 86

5.4本章小结 88

第6章 支持向量机 89

6.1基于最大间隔分隔数据 89

6.2寻找最大间隔 91

6.2.1分类器求解的优化问题 92

6.2.2 SVM应用的一般框架 93

6.3 SMO高效优化算法 94

6.3.1 Platt的SMO算法 94

6.3.2应用简化版SMO算法处理小规模数据集 94

6.4利用完整Platt SMO算法加速优化 99

6.5在复杂数据上应用核函数 105

6.5.1利用核函数将数据映射到高维空间 106

6.5.2径向基核函数 106

6.5.3在测试中使用核函数 108

6.6示例:手写识别问题回顾 111

6.7本章小结 113

第7章 利用AdaBoost元算法提高分类性能 115

7.1基于数据集多重抽样的分类器 115

7.1.1 bagging:基于数据随机重抽样的分类器构建方法 116

7.1.2 boosting 116

7.2训练算法:基于错误提升分类器的性能 117

7.3基于单层决策树构建弱分类器 118

7.4完整AdaBoost算法的实现 122

7.5测试算法:基于AdaBoost的分类 124

7.6示例:在一个难数据集上应用AdaBoost 125

7.7非均衡分类问题 127

7.7.1其他分类性能度量指标:正确率、召回率及ROC曲线 128

7.7.2基于代价函数的分类器决策控制 131

7.7.3处理非均衡问题的数据抽样方法 132

7.8本章小结 132

第二部分 利用回归预测数值型数据 136

第8章 预测数值型数据:回归 136

8.1用线性回归找到最佳拟合直线 136

8.2局部加权线性回归 141

8.3示例:预测鲍鱼的年龄 145

8.4缩减系数来“理解”数据 146

8.4.1岭回归 146

8.4.2 lasso 148

8.4.3前向逐步回归 149

8.5权衡偏差与方差 152

8.6示例:预测乐高玩具套装的价格 153

8.6.1收集数据:使用Google购物的API 153

8.6.2训练算法:建立模型 155

8.7本章小结 158

第9章 树回归 159

9.1复杂数据的局部性建模 159

9.2连续和离散型特征的树的构建 160

9.3将CART算法用于回归 163

9.3.1构建树 163

9.3.2运行代码 165

9.4树剪枝 167

9.4.1预剪枝 167

9.4.2后剪枝 168

9.5模型树 170

9.6示例:树回归与标准回归的比较 173

9.7使用Python的Tkinter库创建GUI 176

9.7.1用Tkinter创建GUI 177

9.7.2集成Matplotlib和Tkinter 179

9.8本章小结 182

第三部分 无监督学习 184

第10章 利用K-均值聚类算法对未标注数据分组 184

10.1 K-均值聚类算法 185

10.2使用后处理来提高聚类性能 189

10.3二分K-均值算法 190

10.4示例:对地图上的点进行聚类 193

10.4.1 Yahoo! PIaceFinder API 194

10.4.2对地理坐标进行聚类 196

10.5本章小结 198

第11章 使用Apriori算法进行关联分析 200

11.1关联分析 201

11.2 Apriori原理 202

11.3使用Apriori算法来发现频繁集 204

11.3.1生成候选项集 204

11.3.2组织完整的Apriori算法 207

11.4从频繁项集中挖掘关联规则 209

11.5示例:发现国会投票中的模式 212

11.5.1收集数据:构建美国国会投票记录的事务数据集 213

11.5.2测试算法:基于美国国会投票记录挖掘关联规则 219

11.6示例:发现毒蘑菇的相似特征 220

11.7本章小结 221

第12章 使用FP-growth算法来高效发现频繁项集 223

12.1 FP树:用于编码数据集的有效方式 224

12.2构建FP树 225

12.2.1创建FP树的数据结构 226

12.2.2构建FP树 227

12.3从一棵FP树中挖掘频繁项集 231

12.3.1抽取条件模式基 231

12.3.2创建条件FP树 232

12.4示例:在Twitter源中发现一些共现词 235

12.5示例:从新闻网站点击流中挖掘 238

12.6本章小结 239

第四部分 其他工具 242

第13章 利用PCA来简化数据 242

13.1降维技术 242

13.2 PCA 243

13.2.1移动坐标轴 243

13.2.2在NumPy中实现PCA 246

13.3示例:利用PCA对半导体制造数据降维 248

13.4本章小结 251

第14章 利用SVD简化数据 252

14.1 SVD的应用 252

14.1.1隐性语义索引 253

14.1.2推荐系统 253

14.2矩阵分解 254

14.3利用Python实现SVD 255

14.4基于协同过滤的推荐引擎 257

14.4.1相似度计算 257

14.4.2基于物品的相似度还是基于用户的相似度? 260

14.4.3推荐引擎的评价 260

14.5示例:餐馆菜肴推荐引擎 260

14.5.1推荐未尝过的菜肴 261

14.5.2利用SVD提高推荐的效果 263

14.5.3构建推荐引擎面临的挑战 265

14.6基于SVD的图像压缩 266

14.7本章小结 268

第15章 大数据与MapReduce 270

15.1 MapReduce:分布式计算的框架 271

15.2 Hadoop流 273

15.2.1分布式计算均值和方差的mapper 273

15.2.2分布式计算均值和方差的reducer 274

15.3在Amazon网络服务上运行Hadoop程序 275

15.3.1 AWS上的可用服务 276

15.3.2开启Amazon网络服务之旅 276

15.3.3在EMR上运行Hadoop作业 278

15.4 MapReduce上的机器学习 282

15.5在Python中使用mrjob来自动化MapReduce 283

15.5.1 mrjob与EMR的无缝集成 283

15.5.2 mrjob的一个MapReduce脚本剖析 284

15.6示例:分布式SVM的Pegasos算法 286

15.6.1 Pegasos算法 287

15.6.2训练算法:用mtjob实现MapReduce版本的SVM 288

15.7你真的需要MapReduce吗? 292

15.8本章小结 292

附录A Python入门 294

附录B 线性代数 303

附录C 概率论复习 309

附录D 资源 312

索引 313

版权声明 316

查看更多关于机器学习实战的内容

相关书籍
作者其它书籍
返回顶部