前言
近十年来, 大数据和人工智能技术进步飞快, 数据渗透至社会的各个行业、各个领域以及人类的生产、生活的方方面面, 2020年4月发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式将数据列为生产要素,  与劳动力、土地、资本具有同等重要的地位。 不仅如此, 数据也已成为现代人一刻都离不开的消费品。 因此, 从数据中发现规律、发掘有价值的信息便成了必备的研究、生产甚至生活的技能, 数据分析的相关课程在大学生能力培养中的地位日益突出。
近年来, 江西财经大学领导对数据分析的相关专业基础课的教学越来越重视, 但发现目前没有一本数据分析或多元统计方面的教材能够适应现阶段的培养方案, 因此笔者不揣冒昧, 决定自编一本多元数据分析的教材。
现有的数据分析教材或是陷于烦琐的统计软件操作教学, 或是偏重于数理推导和证明, 轻视实践, 或是虽兼有理论和实践, 但二者没有很好地融合。 笔者多年讲授“管理统计学”课程和数学建模, 发现很多学生缺乏的是统计建模能力, 导致对方法的应用缺乏深层次的认知和理解, 在复杂多变的场景中不能灵活应用。 基于这一经验, 笔者决定从统计建模的角度重新梳理一些核心多元统计方法的教学方式, 从观察现象和样本数据开始提出问题, 然后围绕问题提出假设, 建立数学模型, 再分析讨论模型的性质、求解方法以及解的性质, 再到计算实现, 最后提出一个综合性的应用问题, 让学生在解决问题的过程中熟悉方法的应用, 领悟方法的核心思想和要点, 同时鼓励学生拓展和创新, 培养学生的综合能力和创新能力。
本书是为上述教学改革目标服务的。 要达成这一目标并不轻松, 需要用到一些比较深奥的概率统计、矩阵代数、优化等领域的知识, 学生在修课之前并没有这方面的知识准备, 因此本书第1章及书末的附录对需要用到的知识作了较为系统的介绍。 特别是对多元正态分布知识作了系统详尽的介绍, 因为这部分知识对多元数据分析非常重要, 但据笔者所知, 现有教材都只是列出部分结论, 或泛泛而论, 不作深入介绍, 本书为了方便读者查阅和深入学习, 在第1章花了不少的篇幅系统、深入地介绍了这部分知识。
第2章对均值检验和方差分析作了较为系统的介绍, 证明了离差平方和分解引理以及组间离差平方和、组内离差平方和的抽样分布定理, 并详细介绍方差分析的MATLAB实现。
第3章对拟合优度检验、正态性检验和独立性检验作了系统介绍。 现有教材对拟合优度检验的Pearson统计量的抽样分布都没有给出证明, 本书专辟一节证明了多项分布的中心极限定理, 然后用这个定理很简洁地证明了Pearson统计量的抽样分布定理。 关于多项分布的中心极限定理的证明, 笔者给出的证明只需用到矩母函数和极限知识, 比现有文献中的证明方法更初等、直接。
第4章系统介绍矩阵奇异值分解的知识, 并给出奇异值分解在矩阵的低秩逼近、超定线性方程组的解以及矩阵的Moore-Penrose伪逆中的应用, 为后面的主成分分析、因子分析、多维标度分析、典型相关分析等章的模型求解作准备。
第5章系统介绍线性回归分析, 是从统计建模的角度展开的。 先是通过例子提出问题, 然后提出假设, 建立线性回归模型, 然后探讨模型的解及解的性质, 再讨论问题的几何本质, 还介绍了偏相关系数, 最后是回归方法的应用。 解释线性回归问题的几何本质时, 我们将其看作内积空间L2()中的最佳线性逼近问题, 在更高的观点下探索一般性的结果。
第6章系统介绍主成分分析, 也是从统计建模的角度展开的。 首先通过观察和讨论提出降维的思想, 然后提出假设建立主成分的数学模型, 接下来探讨模型的求解以及主成分的性质, 再讨论主成分的计算实现, 最后是主成分分析的应用。 与现有教材不同的是, 本书仅用矩阵的特征分解和一些简单的线性代数知识推导出主成分模型的解及其性质, 这样做不仅直接, 还便于探索主成分分析与奇异值分解的联系。
第7章系统介绍因子分析。 从Holzinger和Swineford的智力测验发起讨论, 提出问题, 建立模型, 探索模型的性质及参数估计方法, 然后给出计算实例, 分析计算结果, 讨论如何增强公共因子的可解释性, 由此引出因子旋转的问题, 最后讨论因子得分的估计。 与现有教材不同的是, 本书利用矩阵的奇异值分解和低秩逼近很自然地导出估计因子载荷矩阵的主成分法和主因子法。 本书还通过计算实例对三种常用因子模型参数估计方法作了比较, 讨论各自的优缺点。 本书对因子得分的估计方法也作了深入讨论。
第8章系统介绍系统聚类法和K-均值聚类法, 并通过应用实例探讨聚类分析实际应用中会遇到的一些问题。 递推公式是编程实现系统聚类法的关键, 重心法、Ward 法的递推公式证明比较难, 现有教材都是直接跳过, 本书给出了详细证明。
第9章系统介绍多维标度分析。 由数据可视化的问题引出多维标度分析, 然后建立严格的数学模型, 探讨模型的求解, 由此得到多维标度分析的古典解, 并揭示多维标度分析与主成分分析的联系。 本章对非度量多维标度法也作了深入的讨论, 并给出实现方法和应用实例。 本书在多维标度分析的严格数学表述及解的推导上有自己的特色, 使用矩阵奇异值分解从矩阵的低秩逼近的角度进行探讨, 角度新颖自然。
第10章系统介绍两个总体和多个总体的判别模型、平均错判成本最小判别法、Bayes判别法、距离判别法、Fisher线性判别法、逻辑回归分析、softmax回归分析等内容, 通过实例详细介绍实现和应用的细节, 并附上完整的MATLAB代码。 本章对于判别分析、逻辑回归分析的讨论都是从数学建模的角度展开的, 让学生在建模的过程中明白方法的由来, 在模型求解的过程中明白方法的原理及实现要点, 通过应用实例让学生掌握方法的应用要点, 并拓展学生的创新思维。 对于平均错判成本最小判别模型的解, 现有教材都是给出结论, 没有推导过程, 本书给出了严格推导。 softmax回归模型较为深刻复杂, 一般的多元统计教材不会纳入这部分内容, 但考虑它是机器学习和模式识别中重要的分类方法, 也是神经网络的基本构成单元, 对于大数据分析和人工智能专业的学生是必不可少的基础知识, 因此本章对它作了深入讨论并给出了应用实例。
第11章系统介绍典型相关分析的基本思想、数学模型、求解方法及MATLAB实现, 并通过实例讲解典型相关分析的应用要点。 对于典型相关模型的解析解, 本书利用Lagrange 乘数法及矩阵奇异值分解给出一种清晰简洁的推导, 有助于学生掌握典型相关分析的本质。
为了方便读者动手实践, 本书给出实现书中计算实例、应用实例的完整MATLAB代码和数据集, 以及详细的使用说明和代码注释, 读者能够很容易地实现所学方法。 为便于读者阅读,本书中的矩阵、向量、矢量等不再单独标示成黑斜体,统一使用白斜体形式。此外, 针对本书的全套教学课件已制作完成, 是由LaTeX精心制作的PDF课件, 可用常用的PDF阅读器播放演示。 这些程序、数据集、课件以及制作课件的LaTeX源代码, 可在清华大学出版社官网免费下载。
在写作本书的过程中, 笔者参考了国内外一些经典的多元统计、数据分析、概率统计、测度论、机器学习、矩阵论、泛函分析的教材, 国内的如方开泰教授的经典著作[10], 何晓群教授的经典教材[19], 范金城和梅长林的数据分析教材[21], 王星教授的非参数统计教材[63], 陈希孺教授的概率论与数理统计教材[28], 邓集贤等的概率论与数理统计教材[29], 严家安教授的测度论讲义[33], 方保镕等的矩阵论教材[71], 周志华教授的机器学习经典教材[136],张恭庆和林源渠教授的泛函分析教材[75]。国外的如Anderson的经典多元统计分析著作[12], Johnson 和Wichern的著作[17], Lattin等的多元数据分析教材[18],Krzanowski的多元统计分析原理[138], K.L.Chung(钟开莱)的概率论经典教材[1], Larsen和Marx 的数理统计教材[27], T. Tao(陶哲轩)的测度论教材[32], Golub和Loan的矩阵计算专著[69], Adriaans和 Zantinge的数据挖掘教材[9]。还有其他经典著作, 这里就不一一列举了, 笔者在此对这些教材和著作的作者表示衷心的感谢!
本书的写作得到了国家自然科学基金(项目编号:10701040)和江西财经大学信毅教材基金的资助, 同时得到了江西财经大学信息管理学院的大力支持。 在本书的写作过程中, 齐亚伟院长、韩加林主任、华长生教授给予了笔者鼓励和支持, 并提出了大量的宝贵意见, 助教贺瑾收集和整理了大量的资料和教学材料, 笔者对诸位同仁的无私奉献表示衷心的感谢!
最后, 因笔者学识水平有限, 虽然尽了最大努力, 但书中难免存在错漏, 寄望读者诸君不吝赐教,给予批评指正, 笔者在此表示衷心的感谢!

杨寿渊
江西财经大学
2023年10月