全书共包含18个章节,从概率密度、贝叶斯决策理论引入样本学习的基本概念,进而介绍了近邻域学习、核学习及神经网络学习,在此基础上探讨了PCA学习、VC维概念、函数估计问题等,后重点介绍了非常实用的支持向量机SVM及Boosting方法。各章均包含小结、附录、习题及参考资料,非常适合于大专院校计算机及电气工程类硕博士研究生及高年级学生作为教学参考书。
前言本书为新兴领域的统计学习理论提供了一个宽泛和易于理解的入门性介绍,这一领域的发展源于对模式识别和机器学习、非参数统计、计算机科学、语言学中的语言学习和认知心理学、哲学问题中的归纳法以及哲学和科学方法论等学科与技术的研究。
本书是学习理论与认知论课程的非常好的入门教材,目前已在普林斯顿大学电气工程专业的教学中使用。学习理论与认知论课程并没有特定的基础要求,向所有对其感兴趣的学生开放,包括新生、主修科学的高年级学生,以及来自工程、人文、社会科学的学生。虽然许多材料技术性较强,但是我们发现大部分学生可以体会和领悟本书的要点。
模式识别的工程研究关注的是基于一个有用的方法研发出的自动化系统来区分不同的输入模式。为邮局开发的系统用于如何扫描手写地址并将邮件排序,制造商关注如何设计一个计算机系统把普通的谈话内容进行文字转录,还有诸如计算机能否用来分析医学图像,进而做出诊断等此类问题。
机器学习提供了对一些模式识别问题进行求解的有效方法。它可能是采用受过训练的系统来识别手写邮政编码,或能使自动化系统与用户进行交互使其学会实现对语音的识别;也许是使用机器学习算法来开发一套医学图像分析系统。
机器学习和模式识别也关注学习系统所包含的一般原则。一种系统化的方法技术非常有用,因为我们并不是从无到有开发算法并在每个新的应用程序中特设某一种方式。评估一个学习系统的性能所采用的技术也是非常重要的。对学习算法的实践环节而言,知道什么是可实现的,什么是可用的评价基准,并提出新的技术也同等重要。
这些问题也出现在认知论与哲学问题中。我们能学到什么?以及我们如何进行学习?我们能够从其他思想和外部世界学到什么?通过归纳法我们又能学到什么?哲学问题的归纳法关注的是如何在归纳推理的基础上学到一些新东西。而给定的事实是归纳推理前提的真实性无法保证其结论的真实性。这个问题没有唯一解,这并不是因为无解,而是因为有太多解,这取决于采用什么学习方法。在本书中,我们解释了如何根据归纳形成各种不同的解决方案。
因此,我们希望本书能为广大读者在统计学习理论中提供一个简便的入门性介绍。对于那些对学习理论或实际算法的深入研究感兴趣的读者,我们希望本书提供给他们一个有益的出发点。而对于那些对一般的认知论和哲学感兴趣的读者,我们希望本书有助于他们从其他领域中领悟一些重要的想法。对其他读者而言,我们也希望本书有助于他们对统计学习理论有更深层次的理解,因为它揭示了学习的本质及其限制,这也是人工智能的核心进展。
感谢普林斯顿大学本科教育创新课程发展250周年纪念基金的资助。Rajeev Kulkarni对全书提供了非常有用的意见。Joel Predd和Maya Gupta提供了许多宝贵的意见。此外,感谢Joshua Harris对本书的仔细审读。同时也感谢几年来,我的助教和学生们一起对该课程内容的讨论。谢谢!
目录
译者序
前言
第1章引言:分类、学习、
特征及应用
11范围
12为什么需要机器学习?
13一些应用
131图像识别
132语音识别
133医学诊断
134统计套利
14测量、特征和特征向量
15概率的需要
16监督学习
17小结
18附录:归纳法
19问题
110参考文献
第2章概率
21一些基本事件的概率
22复合事件的概率
23条件概率
24不放回抽取
25一个经典的生日问题
26随机变量
27期望值
28方差
29小结
210附录:概率诠释
211问题
212参考文献
第3章概率密度
31一个二维实例
32在\[0,1\]区间的随机数
33密度函数
34高维空间中的概率密度
35联合密度和条件密度
36期望和方差
37大数定律
38小结
39附录:可测性
310问题
311参考文献
第4章模式识别问题
41一个简单例子
42决策规则
43成功基准
44最佳分类器:贝叶斯决策
规则
45连续特征和密度
46小结
47附录:不可数概念
48问题
49参考文献
第5章最优贝叶斯决策规则
51贝叶斯定理
52贝叶斯决策规则
53最优及其评论
54一个例子
55基于密度函数的贝叶斯定理
及决策规则
56小结
57附录:条件概率的定义
58问题
59参考文献
第6章从实例中学习
61概率分布知识的欠缺
62训练数据
63对训练数据的假设
64蛮力学习方法
65维数灾难、归纳偏置以及
无免费午餐原理
66小结
67附录:学习的类型
68问题
69参考文献
第7章最近邻规则
71最近邻规则
72最近邻规则的性能
73直觉判断与性能证明框架
74使用更多邻域
75小结
76附录:当人们使用最近邻域
进行推理时的一些问题
761谁是单身汉?
762法律推理
763道德推理
77问题
78参考文献
第8章核规则
81动机
82最近邻规则的变体
83核规则
84核规则的通用一致性
85势函数
86更多的通用核
87小结
88附录:核、相似性和特征
89问题
810参考文献
第9章神经网络:感知器
91多层前馈网络
92神经网络用于学习和分类
93感知器
931阈值
94感知器学习规则
95感知器的表达能力
96小结
97附录:思想模型
98问题
99参考文献
第10章多层神经网络
101多层网络的表征能力
102学习及S形输出
103训练误差和权值空间
104基于梯度下降的误差最小化
105反向传播
106反向传播方程的推导
1061单神经元情况下的推导
1062多层网络情况下的推导
107小结
108附录:梯度下降与反射平衡
推理
109问题
1010参考文献
第11章可能近似正确(PAC)
学习
111决策规则分类
112来自一个类中的最优规则
113可能近似正确准则
114PAC学习
115小结
116附录:识别不可辨元
117问题
118参考文献
第12章VC维
121近似误差和估计误差
122打散
123VC维
124学习结果
125举例
126神经网络应用
127小结
128附录:VC维与波普尔
(Popper)维度
129问题
1210参考文献
第13章无限VC维
131类层次及修正的PAC准则
132失配与复杂性间的平衡
133学习结果
134归纳偏置与简单性
135小结
136附录:均匀收敛与泛
致性
137问题
138参考文献
第14章函数估计问题
141估计
142成功准则
143最优估计:回归函数
144函数估计中的学习
145小结
146附录:均值回归
147问题
148参考文献
第15章学习函数估计
151函数估计与回归问题回顾
152最近邻规则
153核方法
154神经网络学习
155基于确定函数类的估计
156打散、伪维数与学习
157结论
158附录:估计中的准确度、
精度、偏差及方差
159问题
1510参考文献
第16章简明性
161科学中的简明性
1611对简明性的明确倡导
1612这个世界简单吗?
1613对简明性的错误诉求
1614对简明性的隐性诉求
162排序假设
1621两种简明性排序法
163两个实例
1631曲线拟合
1632枚举归纳
164简明性即表征简明性
1641要确定表征系统吗?
1642参数越少越简单吗?
165简明性的实用理论
166简明性和全局不确定性
167小结
168附录:基础科学和统计学习
理论
169问题
1610参考文献
第17章支持向量机
171特征向量的映射
172间隔最大化
173优化与支持向量
174实现及其与核方法的关联
175优化问题的细节
1751改写分离条件
1752间隔方程
1753用于不可分实例的松弛
变量
1754优化问题的重构和求解
176小结
177附录:计算
178问题
179参考文献
第18章集成学习
181弱学习规则
182分类器组合
183训练样本的分布
184自适应集成学习算法
(AdaBoost)
185训练数据的性能
186泛化性能
187小结
188附录:集成方法
189问题
1810参考文献