SAS系统讲义-判别分析
判别分析是一种统计方法,用来判别个体所属类体。它产生于本世纪三十年代,近年来,在许多现代自然科学的各个分支和技术部门中得到广泛的应用。判别分析方法通常要给出一个判别指标判别函数,同时还要指定一种判别规则。
判别分析方法可以分为多种,如距离判别分析、Fisher 线性函数判别方法等。距离判别分析方法可以根据样品分布的形式不同而进行选择。如果假设每组内分布为多元正态分布,可以使用基于多元正态分布理论的参数法,导出一个线性或二次的距离判别函数。否则,将采用不基于任何分布假设的非参数方法。
在距离判别分析中,贝叶斯理论可以用于计算样品属于每一组的先验概率和后验概率。如果假设每组内分布为多元正态分布,可以根据贝叶斯理论计算样品属于每一组的后验概率。设有个组,且组的概率密度为,样品来自组的先验概率为,满足,那么根据贝叶斯理论,样品属于组的后验概率为:
如果假设每组内分布为多元正态分布,可以根据贝叶斯理论计算样品属于每一组的后验概率。如果样品来自组的概率密度函数为:
那么根据贝叶斯理论,样品属于组的后验概率为:
其中,的几何意义为到组均值的平方距离。
在实际应用中,距离判别分析方法可以用于解决很多问题,如信用评分、客户分类、疾病诊断等。
此外,Fisher 线性函数判别方法也是一种常用的判别分析方法。该方法可以用于解决两个或多个总体的判别问题。该方法的优点在于可以处理高维数据,并且计算速度快。
在Fisher 线性函数判别方法中,需要计算到两个总体的距离函数,然后根据这个距离函数进行判别。这个距离函数可以是线性的,也可以是非线性的。如果是线性的,可以使用马氏距离,如果是非线性的,可以使用二次判别函数。
判别分析方法可以帮助我们解决很多实际问题,如信用评分、客户分类、疾病诊断等。它可以帮助我们根据样品的特征来判别其所属类体,并且可以用于解决很多实际问题。
判别分析方法的优点在于可以处理高维数据,并且计算速度快。但是,它也存在一些缺点,如需要假设样品分布的形式、需要选择合适的判别函数等。因此,在实际应用中,需要根据实际情况选择合适的判别分析方法,并且需要对样品的分布形式进行假设和检验。