统计学习笔记――因素分析
十项全能运动员的成绩由那些方面的因素所决定呢?有人做过这样的研究,把许多运动员的有关测量数据收集以后,经过分析得到的结果表明,十项运动可以概括为爆发性臂力、爆发性腿力、速度与耐力四项基本的运动能力。在分析过程中研究者使用的是一种多因素的统计方法――因素分析。
因素分析是在心理学的研究中建立和发展起来的,有人甚至称其为心理学对自然科学的唯一贡献。在1904年英国心理学家C.Spearman发表了General Intelligence, Objectively Determined and Measured一文,提出智力是由一般因素和众多特殊因素构成的,从而创立了因素分析的两因素(即一般因素与独特因素)方法。在1925年前后,对因素分析是否能够用于心理学的研究以反映心理的实质开展了规模巨大的争论。30年代,同样是在智力的研究中,L. L. Thurstone认为智力是由一些“基本心理能力”构成。为了寻找这些基本的心理能力,他提出的因素分析中一个重要的思想,即“简单结构”,并通过旋转因素轴的方法建立了形成简单的结构的数学方法。同时Thurstone也提出了因素相关的思想,认为旋转方法得到的因素可以是相关的,也可以是不相关的,如果是因素是相关的则可以对其进行再次分析,得到所谓的高阶因素。因素分析方法在心理学中也大量的运用于个性基本品质的研究中,其中最有名的就是Cattell关于十六种个性因素的研究,以及当前所谓个性“大五”因素模型(认为人类的个性可以归纳为五个基本的描述性变量)的研究。到了二十世纪七十年代,探索性的因素分析在方法上已经成熟,不仅用于心理学中智力和性格的研究,而且也用于态度、学习等方面的研究,在一些非心理学领域,如化学、地质学、生物学和人文地理学等的研究中也广泛地使用了因素分析方法。它提供了一种有效的数学模型来解释事物之间的关系。
因素分析方法在心理学中建立并得到了发展,与此同时统计学家也对这种方法进行研究,发展了的因素分析的各种模型以及计算方法。譬如1933年Hotelling提出了因素分析的主成分法,在1940是统计学家Lawley发表了关于极大似然法的专题论文之后,因素分析才被认为是一种有效的统计技术。
因素分析的数学模型可以表述如下:
设有m个相关的测验变量Z1,Z2,Z3,…,Zm含有p个公共因素F1,F2,F3,…,Fp,设Zi(i=1,2,3,…,m)可以由公共因素F1,F2,F3,…Fp表示:
Zi=αi1F1+αi2F1+αi3F1+…+αipF1 (i=1,2,…,m)
式中Zi(i=1,2,…,m)和Fj(j=1,2,3,…,p)都是标准化变量,F1,F2,F3,…Fp的系数αij(i=1,2,3,…,m,j=1,2,3,…,p)称为因素负荷,在各公共因素正交时,它是公共因素与测验变量之间的相关系数,因而也就是衡量公共因素在测验变量中的重要性和确定公共因素内涵的依据。因素分析的目的在于确定公共因素的个数p和各公共因素的系数αij,并依据这些系数来确定公共因素的内涵。
因素分析分析有全分量模型与公共因素模型之分,两者之间的区别在于有没有假设独特性因素的存在。全分量模型在尽量不损失变异信息的前提下,未象公共因素模型那样假设独特性因素的存在。同时依据研究目的的不同假设可以采用相关的或不相关的因素模型。
在对变量间的相关性测量进行因素抽取之前,通常需要对相关矩阵或协方差矩阵进行有关的参数估计和假设检验,以确定是否有进行因素分析的可能性。
在成熟的几种公共因素抽取方法中,较常使用的是主成分法(Principal Component Analysis)和主轴法(Principal-axes Method)两种,当中主轴法在研究中似乎是一种传统的手段。这两种方法由于在数学模型及功能上的不同,因而适用范围也是不同的。如果进行分析的目的是为了简化问题,找出几个制约观测变量的潜在变量,从而根据与公共因素的相关程度对观测变量加以分类,或者根据个体在公共因素上的不同水平对个体进行分类或排序,则可使用主成分分析;若是问题的目的在于获取几个共同性的潜在变量,由于这几个共同性变量对观测变量的影响才使得观测变量之间出现相关,则理应使用主轴法。
因素抽取过程中的一个重要步骤就确定需要抽取几个公共因素。确定因素抽取数目涉及到因素模型与数据之间充分协调的问题,即因素抽取后对剩余残差以及公共因素方差合理性的评价。确定因素抽取数目方法有许多种,包括统计方法和代数方法。统计方法的假定在实际应用是是一种理想化的模型,实际操作较为困难,也较难为多数研究者所理解。而确定因素数目的代数方法主要有三种:(1)通过对相关矩阵秩的估计来确定因素抽取个数,这种方法的一个经验性近似标准就是依据特征根≥1来做出判断。并且这一标准只是对少于40个变量的变量组进行因素分析时估计公共因素数目的一个约略的估计方法,在低于40个变量时这种方法的准确性是比较高的。(2)通过计算公共因素的方差百分比来确定抽取个数。这是一个最早期使用的经验性方法,即计算先后抽取的因素的方差比例,当累积比例达到某一经验性的标准时即停止抽取。至于这个经验性的比例标准如何确定,则需要结合具体情况进行主观的经验性判断,在早期的智力研究中这个标准通常是85%。(3)使用图解法来确定因素抽取个数。即把特征根按大小排列后绘制一条曲线,在特征根发生急剧变化的临界点即为应该抽取的因素个数。这种方法在特征根出现显著变化的情况下效果是比较好的,但如果特征根逐渐下降,形成一条平缓的曲线时,图解法并不适用。这种方法有著名的SCREET碎石检验,是心理学家在进行基本个性因素研究的过程中提出来的。
抽取过程中得到的因素负荷是各个观测变量与各个公共因素的相关的度量,它是利用观测变量解释公共因素的基础。在通过因素抽取过程获得若干因素之后,因素的含义往往并不是很清楚。如果初始因素负荷矩阵中的在各个因素上的各个负荷值没有突出差异时,就会给识别公共因素带来很大的困难。针对这个问题,瑟斯顿提出了“简单结构”(Simple Structure)的概念。为了获得一个理想的因素解即需要对得到的初始因素负荷矩阵进行旋转变换。旋转变换有两种类型的方法来达到获取简单结构的目的。这两种类型的方法具有不同的假定,即假定因素之间是正交的或假定因素之间的关系是非正交的。在假定因素之间不相关情况下,目前使用最为广泛的一种旋转方法是方差极大化正交旋转(Varimax Rotation)。在假定因素之间相关的情况下,目前使用得最为广泛的旋转方法是直接斜交旋转或Promax斜交旋转(Procrustes-Varimax Rotation)。这两种方法的作用是在不同的假定下使因素方差达到最大。经过旋转变换的因素负荷矩阵使得公共因素的意义和识别变得容易得多。但是在斜交旋转的情况下,因素分析的结果从一个因素负荷矩阵分离为三个部分,首先是因素模式矩阵,矩阵中的各个元素为因素负荷;其次是因素结构矩阵,矩阵中的各个元素为观测变量与公共因素之间的相关程度的度量,再次是各个公共因素之间的相关矩阵。需要注意的是,在因素正交的假定之下,因素负荷矩阵既是抽取因素的模式矩阵也是抽取因素的结构矩阵。 其余未讨论的问题有:
(1)关于因素抽取的具体过程。
(2)各种分析模型之间的异同。
(3)因素计分(factor score)的功用是什么?
-
※ 评论注意事项:
您的评论将在管理员审核后才会显示。
不是智囊风云榜会员或未登陆发表评论,评论人名字显示为匿名。
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除评论中的任意内容
参与本评论即表明您已经阅读并接受上述条款。