QQ图,全称为Quantile-Quantile Plot,是一种在统计学中用于比较两个分布的图形方法,尤其在大气科学和气象学中广泛应用。它通过对比实际观测数据与理论分布的分位数,来评估数据是否符合某个特定的概率分布。Q-Q图的核心思想是将经验数据的分位数与理论分布的分位数进行配对,以此来判断数据的分布特性。
在Q-Q图中,每个点的坐标由两部分组成:x轴表示实际数据的分位数,y轴表示理论分布的分位数。如果数据完全符合理论分布,那么所有点应该落在对角线y=x上,这意味着每一个实际数据点的累积概率与理论分布预测的累积概率相等。偏离这条直线则表明实际数据与理论分布存在偏差。
Tukey提出的经验频率公式在Q-Q图中起到了关键作用,它提供了一种估计数据经验累积概率的方法。公式为(F-1[i-1/3]) / (n+1/3),其中F是经验累积分布函数,i是排序后的数据点的索引,n是数据点的总数。这个公式确保了数据点在Q-Q图上的均匀分布,使得图形更易于解析。
在描述的例子中,数据被分别与伽马分布和高斯(正态)分布进行了比较。对于伽马分布,Q-Q图显示出大部分点都沿着y=x线分布,意味着伽马分布很好地拟合了大部分数据。然而,对于最大的几个值,伽马分布似乎过于瘦尖,即其尾部分布不足以覆盖这些极端值,这可能是由于伽马分布的参数选择不当或者样本变异的影响。
相反,高斯分布的Q-Q图表现较差。特别是,理论分布的左翼过于集中,导致最小的两个理论分位数过低,甚至出现负值。这说明高斯分布的左尾部对数据的解释不足。同时,高斯分布的分位数群明显偏离了y=x线,表明在数据的右翼,高斯分布低估了最大值,也就是说,高斯分布不能精确地拟合这些数据,其右尾部的厚度相比伽马分布来说更不足。
总结来说,Q-Q图是一种强大的工具,它帮助我们直观地理解数据的分布特征,并可以用来评估数据是否符合某种理论分布。在大气统计学中,这种工具对于识别异常值、模型验证以及选择合适的概率分布至关重要。通过Q-Q图,我们可以发现伽马分布在大多数情况下能较好地描述数据,但对极端值的处理不如理想;而高斯分布则在整体上无法精确拟合数据,特别是在数据的两端表现出显著的失配。