因子分析的基本概念和步骤
一、因子分析的意义
在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、
完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研
活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著
数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成
绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的
次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,
但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈
合理的正比,反而会给统计分析带来很多问题,可以表现在:
计算量的问题
由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计
算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容
忽视的。
变量间的相关性问题
收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价
中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究
中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变
量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性
回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那
么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会
导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方
法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子
分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于 20 世纪初 Karl Pearson 和 Charles Spearmen 等人关于智力测
验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领
域,并因此促进了理论的不断丰富和完善。
因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,
名为因子。通常,因子有以下几个特点:
因子个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将
大大减少分析过程中的计算工作量。
因子能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有
变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
因子之间的线性关系并不显著
由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解
决变量多重共线性等给分析应用带来的诸多问题。
因子具有命名解释性
通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解
评论10
最新资源