统计学习笔记-判别分析

统计学习笔记-判别分析

2007-07-20 09:13:45 报告业务: 010-65667912

判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法，它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数，但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的，并且生成的函数能够运用于同样进行了预测变量观测的新的样本点，以判断其类别归属。判别分析的基本原理[1]可以表述为：在一个P维空间R中，有K个已知的总体G1，G2，G3，…，GK，同时有样本点X（X1，X2，X3，…，XP）,它属于且仅属于这K个总体中的一个，判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程[2]分为两个部分，首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则，其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率，则建立起来的分类规则可以应用于实际工作中。　　判别分析的方法中较常使用的有Bayes判别和Fisher判别。Bayes判别[3] [4]是一种概率型的判别分析，在分析过程开始时需要获得各个类别的分布密度函数，同时也需要知道样本点属于各个类别的先验概率，以建立一个合适的判别规则；而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失，以确定各个样本点的预测类别归属。当某个样本点的判别得分为D时，则它属于第i个类别的概率为： P（Gi\|D）=P（D\|Gi）P（Gi）/ΣP（D\|Gi）P（Gi）式中P(Gi)为先验概率，P(D\|Gi)为在第i组判别得分D的条件概率，而P(Gi\|D)为在第i组判别得分D的后验概率。判断某个样本点是否属于某个类别，则需要判断属于该组的概率是否最大。Fisher判别是依据方差分析原理建立起来的另外一种判别分析方法。Fisher判别的基本思路[5] [6]就是投影，针对P维空间中的某点x=(x1，x2，x3，…，xp)寻找一个能使它降为一维数值的线性函数y(x)： y(x)= ΣCjxj 　　然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据，再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后，既能最大限度地缩小同类中各个样本点之间的差异，又能最大限度地扩大不同类别中各个样本点之间的差异，这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想，即依据组间均方差与组内均方差之比最大的原则来进行判别。　　判别分析的结果对应着分析的不同步骤过程，也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数（Canonical Discriminant Function）、衡量预测变量与判别函数之间关系的结构矩阵（Structure Matrix）以及Fisher线性分类函数（Fisher Classification Function）。典型判别函数是基于Bayes判别思想建立起来的，主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。要将典型判别函数应用于大量的实践操作中是不现实的，因为这涉及到对被分类的样本计算各种概率，十分繁琐不利用操作。而Fisher线性分类函数则是针对每个类别分别建立起来的，可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类，并通过与原有分类进行比较来确定原有分类的判对率。

/shichangdiaoyan/diaoyanfangfa/2007-07-20/116.html

关于我们 | 网站声明 | 网站地图 | |