多元统计分析概述

后面我会添加各章学习笔记的链接。

多元统计分析是研究多个随机变量之间的相互依赖关系及其内在统计规律的学科。

在统计学基本内容的总结中,只考虑一个或几个因素对一个观察指标(变量)的影响,称为一元统计分析。

如果考虑一个或几个因素对两个或两个以上观察指标(变量)的影响,或者多个观察指标(变量)的相互依赖关系,则称为多元统计分析。

有两个类别,包括:

对数据进行分类,找出它们之间的联系和内在规律。

聚类分析和判别分析技术通常用于构建分类模型。

在众多因素中寻找每个变量的最佳子集,根据子集包含的置信度描述多元系统的结果和每个因素对系统的影响,舍弃次要因素以简化系统结构,了解系统核心。

可以用主成分分析,因子分析,对应分析。

多元统计分析的内容主要包括:多元数据图解法、多元线性相关和回归分析、判别分析、聚类分析、主成分分析、因子分析、对应分析和典型相关分析。

多元数据是指具有多个变量的数据。如果把每个变量看成一个随机向量,那么多个变量形成的数据集就会是一个随机矩阵,所以多元数据的基本表达就是一个矩阵。这些数据矩阵的数学表示是我们的主要任务。换句话说,多元数据的基本运算是矩阵运算,R语言是一种优秀的矩阵运算语言,这也是我们应用它的一大优势。

可视化分析,即图解法,是数据分析的重要辅助手段。例如,两个变量的散点图可以用来考察异常观测值对样本相关系数的影响,矩阵散点图可以用来考察多变量之间的关系,多变量盒尾图可以用来比较几个变量基本统计量的差异。

相关性分析是通过对大量数字数据的观察,排除偶然因素的影响,探讨现象之间相关性的紧密程度和表现形式。在经济系统中,各种经济变量往往具有内在联系。比如经济增长和财政收入,人均收入和消费支出。其中一些关系是严格的函数关系,可以用数学表达式来表示。还有一些不确定的关系,一个变量的变化会影响其他变量,使其发生变化。这种变化是随机的,但还是遵循一定的规律。函数关系很容易解决,那些不确定的关系,也就是相关关系,才是我们关心的。

回归分析的主要对象是客观变量之间的统计关系。它是基于对客观事物的大量实验和观察,用来寻找隐藏在看似不确定的现象中的统计规律。回归分析不仅可以揭示自变量对因变量的影响,还可以用回归方程进行预测和控制。回归分析的主要研究范围包括:

(1)线性回归模型:一元线性回归模型,多元线性回归模型。

(2)回归模型的诊断:回归模型基本假设的合理性,回归方程拟合效果的判断,回归函数形式的选择。

(3)广义线性模型:回归用定性变量,自变量用定性变量,因变量用定性变量。

(4)非线性回归模型:一元非线性回归和多元非线性回归。

在实际研究中,经常会遇到一个随机变量随一个或多个非随机变量变化,这种关系明显是非线性的。如何用一个更好的模型来表达它,然后对它进行估计和预测,检验它的非线性成为一个重要的问题。在经济预测中,经常使用多元回归模型来反映预测量与各种因素之间的依赖关系,其中线性回归分析应用较为广泛。但是,客观事物之间的关系不一定是线性的。在某些情况下,非线性回归模型更合适,但更难建立。在实际生产过程中,生产管理目标的参数与加工量之间存在相关性。随着生产加工量的增加,生产管理目标的参数(如生产成本和生产工时等。)并不是简单的线性增长。这时候就需要非线性回归分析进行分析了。

鉴于统计模型的多样性和适应性,根据因变量和解释变量的价值性质,统计模型可以分为许多类型。通常,带有定性自变量的线性模型称为一般线性模型,如试验设计模型、方差分析模型等。因变量非正态分布的线性模型称为广义线性模型,如Logistic回归模型、对数线性模型、Cox比例风险模型等。

1972年,Nelder进一步扩展了经典的线性回归模型,建立了统一的理论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的线性回归模型被称为广义线性模型(GLM)。

广义线性模型是多元线性回归模型的推广,从另一个角度也可以看作非线性模型的特例。它们有一些* * *性质,是其他非线性模型所没有的。它与典型线性模型的区别在于其随机误差分布不是正态的,与非线性模型的最大区别在于非线性模型没有明确的随机误差分布假设,而广义线性模型中随机误差的分布是可以确定的。广义线性模型不仅包括离散变量,也包括连续变量。正态分布也包含在指数分布族中,指数分布族包含描述散度的参数,属于双参数指数分布族。

判别分析是多元统计分析中用来区分样本类型的一种统计分析方法。所谓判别分析方法,就是一旦在已知的分类下有了新的样本,就可以用它来选择一个判别标准,来决定把新的样本放在哪个类别中。判别分析的目的是为分类已知的数据建立由数值指标组成的分类规则,然后将这样的规则应用于分类未知的样本。比如我们获得了胃炎患者和健康人的一些实验室指标,从中可以发现两类人的区别。将这种差异表示为一个判别公式,然后对怀疑患有胃炎的人,可以根据其实验室指标,用该判别公式进行诊断。

聚类分析是一种研究物以类聚的现代统计分析方法。过去,人们主要依靠经验和专业知识进行定性分类,而很少使用数学方法,这使得许多分类具有主观性和随意性,不能很好地揭示客观事物内在的本质区别和联系,特别是对于多因素、多指标的分类问题,通过定性分类更难实现准确分类。为了克服定性分类的不足,多元统计分析逐渐被引入数值分类学,形成了聚类分析的一个分支。

聚类分析是一种分类技术。与其他多元分析方法相比,这种方法在理论上是粗糙和不完善的,但在应用上却取得了巨大的成功。聚类分析、回归分析和判别分析被称为多元分析的三种主要方法。

在实际问题中,经常会遇到研究多元问题。但在大多数情况下,不同变量之间存在一定的相关性,这必然会增加分析问题的复杂性。主成分分析(PCA)是通过降维技术将多个指标转化为少数几个综合指标的统计分析方法。如何将关系复杂的指标综合成几个较少的成分,这样既有利于分析和解释问题,又便于抓住主要矛盾,做出科学的评价。这时候就可以用主成分分析了。

因子分析是主成分分析的扩展,也是一种将多个变量变成少数几个综合变量的多元分析方法,但其目的是用有限个不可观测的隐变量来解释原始变量之间的相关性。主成分分析通过线性组合将原始变量合成若干个主成分,用较少的综合指标代替较多的指标(变量)。在多元分析中,变量之间往往存在相关性。变量之间相关的原因是什么?是否存在一个无法直接观测到但影响可观测变量变化的共同因素?

因子分析就是寻找这些公因子的统计分析方法,就是在主成分的基础上构造一些意义明确的公因子,以它们为框架对原始变量进行分解,考察原始变量之间的联系和差异。比如研究糕点行业的价格变化,糕点种类繁多,从几百种到甚至上千种,但无论是哪种风格的糕点,所用的材料不外乎面粉、食用油、糖等主要原料。然后,面粉、食用油、糖是很多糕点的共同因素,各种糕点的价格变化与面粉、食用油、糖的价格变化密切相关。要了解或控制蛋糕行业的价格变化,只需要掌握面粉、食用油、糖的价格即可。

对应分析又称对应分析,是由法国统计学家J.P.Beozecri在1970年提出的。对应分析是在因子分析基础上发展起来的多元统计方法,是Q型和R型因子分析的联合应用。在经济管理数据的统计分析中,我们经常要处理三种关系,即样本之间的关系(Q型关系)、变量之间的关系(R型关系)和样本与变量之间的关系(对应关系)。例如,在评价某一行业所属企业的经济效益时,不仅要研究经济效益指标之间的关系,还要根据经济效益的好坏对企业进行分类,研究哪些企业与哪些经济效益指标的关系更密切,从而为决策部门正确指导企业的生产经营活动提供更多的信息。这就需要一种统计学的方法,把企业(样本)和指标(变量)放在一起分析、分类、作图,便于经济解释。解决这类问题的统计方法是对应分析。

在相关分析中,当一组只有两个变量时,可以用简单的相关系数来衡量;当一个组中有多个变量时,可以用复相关系数来度量。大量的实际问题要求我们将指标之间的关系扩展到两组变量,即两组随机变量之间的相互依赖关系。典型相关分析是一种用来解决这类问题的分析方法。它实际上是利用主成分的思想来讨论两组随机变量之间的相关性,把两组变量之间的相关性转化为几对变量之间的相关性,而这几对变量是不相关的,从而简化了复杂的相关性。

典型相关分析广泛应用于经济管理的实证研究中,因为许多经济现象都是多个变量之间的关系。比如,在研究通货膨胀的原因时,可以把几个物价指数作为一组变量,把几个影响物价变动的因素作为另一组变量,通过典型相关分析找出几对主要的综合变量,把典型相关系数与物价上涨和通货膨胀的原因结合起来,给出更深层次的分析结果。

多维标度(MDS)是一种多元数据分析方法,以空间分布的形式表达对象之间的相似性或亲和力。1958年,Torgerson在博士论文中首次正式提出了这种方法。MDS分析在市场营销中较为常见,近年来在经济管理领域的应用也越来越多,但在国内应用的报道很少。通过一系列的技术,多维标度法使研究者能够识别构成受试者评价样本基础的关键维度。例如,多维标度通常用于市场研究,以确定构成客户评估产品、服务或公司基础的关键维度。其他应用如比较自然属性(如食物味道或不同气味),了解政治候选人或事件,甚至评估不同群体之间的文化差异。多维标度法通过判断被试提供的样本的相似性或偏好性来推导出内在维度。一旦有了数据,就可以用多维标度法来分析:①被试在评价样本时用了哪些维度;(2)在某些情况下,受试者可以使用多少个维度;③各维度的相对重要性;(4)如何获得样本相关性的感性认识。

20世纪七八十年代见证了现代科学评价的蓬勃发展。在此期间,产生了许多评价方法,如ELECTRE法、多维偏好分析的线性规划法(LINMAP)、层次分析法(AHP)、数据包络分析法(EDA)和接近理想解的排序法(TOPSIS)等。这些方法已经比较发达,应用也比较广泛。

而我国现代科学评价的发展是在上世纪八九十年代,在评价方法及其应用的研究上取得了很大的成就。综合评价方法被应用到国民经济的各个部门,如可持续发展综合评价、小康评价体系、现代化指标体系和国际竞争力评价体系。

多指标综合评价法具有以下特点:它包含多个指标,分别说明被评价对象的不同方面;最后,评价方法要对被评价对象进行总体评价,用一个总的指标来说明被评价对象的总体水平。

目前常用的综合评价方法有很多,如综合评分法、综合指数法、秩和比法、层次分析法、TOPSIS法、模糊综合评价法、数据包络分析法等。

r-永远~