回归分析是研究变量之间的相关关系的一种数理统计方法。在体育领域中存在着大量多因素(变量)的问题。所以,近年来体育科研中多元回归和逐步回归分析方法运用得越来越多了。
回归分析主要可用于解决下列问题:
(一)确定几个变量之间是否存在相关关系。如果存在,则找出它们之间合适的数学表达式──回归方程。如在体质研究、运动员选材研究中为了研究各项形态、机能、素质指标之间的相关关系,常常通过大样本统计数据计算各指标之间的相关系数rij,并建立各指标 之间的回归方程。如 1979年全国体质调研后建立了18~25岁男青年的身高、体重对肺活量的二元回归方程:
Y=- 2708+27.89X1+35.56X2
(肺活量) (身高) (体重)
(二)根据回归方程用一个或几个自变量的值预测或控制另一个因变量的取值。对于一些不容易测的指标,可以通过建立回归方程用几个比较容易测的指标来推测它的估计值。如果自变量选得恰当,这样的回归方程是很有实用价值的。如北京体院高强等人研究建立了推测快肌纤维百分比的三元回归方程:
Y= 5.90+35.53 X1+18.2 X2一6.41 X3
(快肌%) (相对肌力) (MPE %) (IEMG)
只要进行肌肉力量和肌电图的几项测试,就可以实现肌纤维成分的无损伤测定。
(三)进行因素分析。当许多个变量(因素)都对某一个变量有影响时,可以通过回归分析找出其中哪几个是重要因素,哪几个是次要因素。如对田径十项全能世界级优秀运动员的十项全能总分和十个单项成绩进行逐步回归计算,从中可筛选出四个比较重要的项目是: 400米、铅球、110米栏、跳高。
有的研究还根据多元回归方程的系数bi。或标准回归系数bi ’ 来确定各指标的“权重”。
但是,近来在运用多元回归和逐步回归的研究论文中也出现了一些对回归分析的运用条件注意不够的问题。
一、样本含量n和自变量个数 k之间的关系问题
复相关系数R是检验多元回归方程效果的重要指标。一般讲,R越接近1即表示回归方程的效果越好。因此当计算的结果R值接近l时,有些作者就立即认定计算结果十分理想。如“广东省少体校游泳运动员因素分析与运动模型,’(1983年全国体育统计报告会论文)一文中,男15~16岁组自由泳成绩与形态机能指标的十元回归方程R=0.999,十三元回归方程R=1。又如“对男女优秀篮球运动员五大关节活动幅度与运动成绩逐步回归的探讨”(体育科学86年1期)一文中,辽宁男篮队员运动成绩与四项关节活动幅度建立的四元回归方程R=0.995,辽宁女篮队员运动成绩与七项关节活动幅度建立的七元回归方程R=1。作者都认为回归方程十分理想,并根据回归方程作了进一步的分析和结论。但是,再看回归方程中各个指标与因变量(Y)的相关系数则发现有许多指标和Y是不相关的(p>0.05)。可见,R接近1的原因并不是这些指标和Y相关程度极高,而是作者用于计算的样本n太小(游泳一文n=15,篮球一文n=10)。
在《体育统计方法》及一些数理统计书中,都指出:复相关系数R与多元回归方程中自变量的个数k及样本含量n有关。当n相对于k并不很大时,常有较大的R,当n=k+1时,即使这k个自变量与Y并不相关,也会R=1。
如设变量Y与另外K个变量 X1, X2……Xk的内在联系是线性的,它的第α次测试数据是:
(Ya,Xa1,Xa2……,Xak) a=1,2,…,n
则这一组数据可以有如下的结构式:
Y 1=β 0 +β 1 X 11 +β 2 X 12 +……+β k X 1k +ξ 1
Y 2=β 0 +β 1 X 2 1 +β 2 X 2 2 +……+β k X 2 k +ξ 2
……
Y n=β 0 +β 1 X n 1 +β 2 X n 2 +……+β k X n k +ξ n
其中:β 0 ,β 1 ……是 K+ 1个待估计参数,X1,X2,……,Xk是K个可以精确测得的变量,ξ 1, ξ 2,……ξn是n个相互独立且服从正态分布N(θ,δ)的随机变量,这就是多元回归的数学模型。把它写成矩阵形式:
Y=Xβ+ξ
用最小二乘法原理,建立正规方程,可解出b o , b l ……, b k 。它们是参数β 0 ,β 1 ……β k 的最小二乘估计,则多元回归方程为:
Y=bo+b1X1+b2X2+……+bkXk
计算bo, b1, b2,……,bk时要计算下列四个矩阵:X,A,C,B
其中:X是 n组侧试数据Ya的结构矩阵, A=X'X 是正规方程组的系数L ij矩阵,
C=A- 1 是系数矩阵 A的逆矩阵, B 是正规方程组的常数项Liy矩阵。
多元回归的系数 b=A- 1 B.可见,多元回归方程的系数bi的解是和所测得的原始数据的组数(样本含量)n紧密相系的。
可以推导出:当n=k + 1时,结构矩阵X是方阵,这时解出的bi,即使X,和Y全都不相关, 仍可以得到:
Q=E(Y-Ý )=0 亦即:U=Σbi Lij=Lyy 所以 R=sqrt(U/Lyy)=1。
为了用计算实例来说明以上的理论推导,我们随机抽取了K=34,n=10的一个样本。其中大部分X和Y是不相关的(即r iy的值,经检验为 P>0.05)。选取其中9个和Y不相关的X作九元回归计算,riy最小的为-0.011,最大的为0.471,均为P>0.05,计算结果见表1,虽然每个X的偏回归平方和Pi作F检验时,都是P>0.05,但复相关系数R=0.9999975。
把多元回归的 X增加到15,20和34个时,R值分别为:0.9999891,1.000009,1.0000830可见当样本含量n太小与自变量个数K的比例不恰当时,解出的bi是不能正确地反映各自变量和Y之间的内在关系的。如果用这样的多元回归方程为依据去分析和作结论,就一定会产生谬误。
表 1: K=9 n=10的多元回归计算结果
i | b i | P i | F i | R iy | B i×Liy |
0 | -60.35889 | | | | |
1 | 0.3407009 | 1.023885 | 6.017856 E-39 | -0.094 | -2.166176 |
2 | 1.517284 | 4.210444 | 2.474677 E-38 | -0.329 | 26.610420 |
3 | 2.002341 | 3.569278 | 2.097833 E-38 | -0.011 | -1.657173 |
4 | 0.2552928 | 0.0514697 | 0 | -0.201 | -0.2532503 |
5 | -6.171681 | 2.057776 | 1.209452 E-38 | 0.148 | -16.49322 |
6 | 1.620504 | 2.74502 | 1.613378 E-38 | 0.471 | 12.78416 |
7 | -0.08038962 | 0.0523418 | 0 | 0.068 | -0.2451078 |
8 | 1.835966 | 1.7869 | 1.050245 E-38 | 0.065 | 4.7166 |
9 | -2.215276 | 2.497759 | 1.468051 E-38 | 0.160 | 13.23939 |
R=0 .9999975 Lyy = 10.05696 U = 10.05692
有的数理统计专著上提出:n应是 K的5~10倍,这是我们在计算时应特别注意的问题。
体育科研中,特别是研究优秀运动员的时候,样本含量一般都比较小。而希望分析与专项成绩有关的指标时,又常常取许多个Xi,所以,K和n的比例常是一个大问题。
我们认为:在运用多元回归分析时,首先应尽可能地扩大样本含量n,特别要注意n与K的比例。其次,在算出多元回归方程后,不仅要看R值的大小(或对方程作方差分析后的F值大小),还必须仔细看一下每个自变量的Pi的F检验结果,以决定这个方程是否具有实用价值。
二、自变量之间相关的问题
在体育科研中常常运用多元回归或逐步回归来进沂因素分析。即从许多个自变量Xi中分析哪几个是影响Y的主要因素,哪几个是影响Y的次要因素。
按照回归分析的原理,在多元回归中,回归平方和 U 是所有自变量对 Y 变差(波动)的总贡献。在原有的自变量中减去一个自变量后,U 就会减小,减小的数值越大,就说明这个自变量对 Y 的作用越大。所以,把取消一个自变量后,回归平方和 U 减少的值称为:Y 对这个自变量的偏回归平方和Pi。但是,通常情况下由于自变量之间互相存在着相关关系,所以ΣPi≠U,只有当各自变量之间的相关系数rij=0 即正规方程的系数矩阵为对角阵(除主对角线元素L 11 ,L 22 ,……, Lkk外其余元素全为0)时,才有U=ΣPi。
通过计算偏回归平方和Pi后可以作比较,Pi值越大的自变量对Y的作用就越大。如果Pi经F检验为P>0.05,就可认为它对Y的影响不显著。但是,这样用Pi来进行比较的前提是:各自变量之间的相关程度应该很小,即r ij的绝对值都不大,其分析结果才正确。
可是,体育科研中对许多指标作回归分析时,往往自变量之间的相关程度都很高。如以100米跑成绩为Y,分析各项形态、机能、素质指标和100米跑成绩之间的关系时,形态指标中的身高、指距、下肢长……这类长度指标之间的rij都在0.8一0.9左右,体重和胸围、上臂紧张围、大腿围……等围度类指标之间的rij约在 0.8-0.9之间,素质指标中30米跑、立定跳远、纵跳……之间的rij也在0.7左右。如果计算者不注意自变量之间的相关性的问题,按计算的结果下结论,也会出现错误的。
因为,假设在一个多元回归中,X 1和 X 2对 Y的影响都很大,但是它们之间高度相关。由于X1对Y的影响中很大部分可以从X2对Y的影响中反映出来,这时如从回归方程中减去X 1 , U并不会减小很多,即P 1 的值一定不大,同样的理由, P2也不会很大。因此,这时看P1、P2的值就不能正确地反映出X1, X2对Y的重要性。
我们在一次四元回归计算中遇到这样一个实例( n=31),四个变量和Y之间的相关系数如表2。由表2可见,X1 与 X2的相关系数r12=0.949呈高度相关,而其他Xi之间不仅相关系数rij的绝对值较小.而且P>0.05,即相互之间相关不显著。再看表上r3y=0.245(P>0.05),即X3与Y相关不显著。但做四元回归计算出的Pi(见表3),P2<P3而且对P2作F检验,F=0.528( P>0.05),似乎可得出结论X2对 Y的影响比X3小,而且由于经F检验不显著应把X2剔除。
表 2
| X 2 | X 3 | X 4 | Y |
X 1 | 0.949 ** | 0.151 | -0.120 | -0.499 ** |
X 2 | | 0.188 | -0.099 | -0.434 * |
X 3 | | | 0.190 | 0.245 |
X 4 | | | | 0.741 ** |
注:** 为P<0.01 * 为P<0.05
表3
| 四 元 | 三 元 |
P 1 | 0.9330939 | |
P 2 | 0.1069112 | 3.364034 |
P 3 | 0.6368567 | 0.7613853 |
P 4 | 8.62064 | 9.039985 |
当我们考虑到 X1和X2之间高度相关,而把X1剔除后再作三元回归计算(见表3),P2就大大地增大为3.364034不仅F检验结果P<0.01,而且因为P2>P3说明X2比X3的作用更大些。同时从表3上还可以看出,在四元回归中P1、P2都小于1,远比三元回归中的P2小。这个实例可以让我们更加理解回归分析原理中关于:自变量之间的相关性会给因素分析带来麻烦的阐述。
我们认为:在做多元回归分析时,如遇到自变量之间相关程度较高,最好先做R型聚类分析,然后从各类中选出一个典型指标,再做多元回归计算。但是有时两个相关的同类指标按专业知识分析都不应剔除,如在选材的形态指标中下肢长B和下肢长C虽然高度 相关,但这两个指标在选材中各有不同的意义,不能替代,都必须保留。这时如用多元回归计算 Pi进行分析时,就应特别注意了。
多元回归分析是体育科研中一个常用的计算方法, 以上是实际使用中较易出差错的两个问题,提出来与大家共同商讨,不当之处请批评。