计算机统计学中的典型相关分析是一种用于研究两组变量间关系的方法。当面对多对变量时,直接分析每一对变量的相关性可能无法清晰地揭示两组变量的整体关联模式。在这种情况下,典型相关分析提供了有效的工具。
13.1 两组变量的相关问题:
在统计学中,我们通常使用相关系数来衡量两个变量间的线性关系强度,如Pearson相关系数、Kendall's τ和Spearman秩相关系数。然而,当涉及两组变量时,我们需要找到一种方法来表示这两组变量的整体相关性。
例如,在一个关于电视节目评分的研究中,我们有观众评分(分为低学历、高学历和网络三类)和业内人士评分(包括演员、导演和部门主管)两组变量。直接比较六对变量的相关性可能过于复杂,难以得出明确的关系。
13.2 典型相关分析:
典型相关分析的目的是找到两组变量的线性组合,使得这两组新生成的变量(称为典型变量)之间的相关系数最大化。假设我们有两组变量X1, X2, ..., Xp和Y1, Y2, ..., Yq,目标是找到系数a1, a2, ..., ap和b1, b2, ..., bq,使新变量V和W(典型变量)的相关性达到最大。这种相关性度量为典型相关系数。
数学上,典型相关分析涉及矩阵的特征值和特征向量。特征值与V和W的典型相关系数直接相关。通过求解特征值问题,我们可以得到多组典型变量(V1, W1), (V2, W2), ...,其中V1和W1的相关性最强,依次减弱。通常,我们只关注那些特征值累积贡献大的典型变量对,因为它们能解释大部分的变异性。
在实际应用中,除了数值上的显著性,还需要考虑选取的典型变量是否具有实际意义,能否解释研究问题。计算典型变量的步骤相对简单,通常借助统计软件如SPSS进行。
计算结果通常包括各种统计检验,如Pillai迹检验、Hotelling-Lawley迹检验、Wilks λ检验和Roy的最大根检验,这些都是基于F分布的检验,用于确认两组变量间是否存在显著关系。此外,还会列出特征根(即特征值)、它们所占的百分比和累积百分比,以及典型相关系数及其平方,帮助判断选取多少对典型变量合适。例如,如果前两对典型变量的累积特征根已经占总量的99.427%,并且典型相关系数接近或超过0.95,那么这些变量对就具有很高的相关性。
典型系数(canonical coefficient)列出了每组变量对应典型变量的权重,这些系数未标准化,反映了原始变量对典型变量的贡献。这种分析有助于我们理解两组变量之间复杂的结构关系,为后续的解释和决策提供依据。