《高维数据统计方法、理论与应用》融合了方法概念、计算算法以及高维统计学方面的数学理论和应用。方法和计算中的数学基础在探索令人兴奋的潜在结果和理解基本限制条件的过程中起着积极作用。从这个意义上讲,方法和定理的结合构成了《高维数据统计方法、理论与应用》的基石。我们本着强调数学假设及其性质的原则,介绍了一些方法及其在数据分析中的潜在价值,其中的理论推导以现实数据的应用问题为牵引。数学推导产生的结果,不仅能产生更深刻的认识,而且根据适用范围可以对各种方法和算法进行分类。《高维数据统计方法、理论与应用》意不在于技术发展水平的一般概述,而是对我们自己工作进行选择性介绍。
如今,高维数据在诸多领域中普遍存在,如信息技术、生物信息学、天文学等。“高维数据”是指需要估计的未知参数数量比样本数据大一个或好几个数量级的数据。经典统计方法对高维数据并不适用。例如,当线性模型中含有的未知参数比观测值多很多时,采用最小二乘拟合方法,通过设置标准误差和相关度量方法,很难得到有效结果。如果没有附加的假设条件,或者不将问题限定到某一类模型之内,统计方法显然不适用于高维数据。一个拟合多个参数的成熟方法体系,通常假设曲线的结构平滑、平滑函数适用于参数估计。过去的几年,方法论、计算学和数学等领域有了革命性的进展,使得在稀疏性假设条件下进行高维数据的统计推理成为可能。将研究焦点从平滑性转移到稀疏性约束上,抑或将二者结合起来,为复杂数据在诸多领域应用开启了一扇大门。例如,稀疏性条件假设人体的健康状况仅取决于几千个生物指标中的小部分,这比建立一个用几千个变量来描述健康状况的平滑模型要实际得多。
本书融合了方法概念、计算算法以及高维统计学方面的数学理论和应用。方法和计算中的数学基础在探索令人兴奋的潜在结果和理解基本限制条件的过程中起着积极作用。从这个意义上讲,方法和定理的结合构成了本书的基石。我们本着强调数学假设及其性质的原则,介绍了一些方法及其在数据分析中的潜在价值,其中的理论推导以现实数据的应用问题为牵引。数学推导产生的结果,不仅能产生更深刻的认识,而且根据适用范围可以对各种方法和算法进行分类。本书意不在于技术发展水平的一般概述,而是对我们自己工作进行选择性介绍。
阅读本书时,根据个人需要,可以侧重于方法、应用或者理论,当然,也可以同时关注这几个方面。我们希望本书对统计学家、数据分析人员,以及其他从事方法、算法、数学理论研究的人士有所帮助。
本书的问世得益于各位作者的通力合作。我们对为本书付出了辛勤汗水的人们表示感谢。Wolfgang Hardle在Oberwolfach的黑森林中跋涉之时,提出撰写一本高维数据统计学领域的书的想法。作为本书联合研究的合作者.Alain Hauser、Mohamed Hebiri、Markus Kalisch、Johannes Lederer、Lukas Meier、Nicolai Meinshausen、Patric Muller、Jurg Schelldorfer以及Nicolas Stadler提出了许多原创性的想法和概念,或是一些富有思想性的建议。最后,向我们的家人表示感谢,他们营造的温馨舒适环境给予了我们莫大的支持与帮助。