通过分析SQL查询的相似性,提出了一种新的SQL查询的距离函数。通过该距离函数对SQL负载集合进行聚类,并且提取具有代表性的SQL子集,达到减小SQL集合的目的,从而提高基于负载分析的性能优化工具(以物理设计优化为例)的扩展性,同时又不会大幅度降低优化的结果。分别采用TPC-H负载和客户数据库的实际负载作为SQL负载集合,通过算法实现和在DB2上进行Index Advisor实验证实:该算法可以裁剪SQL负载到原有负载的65% 和43%;减少Index Advisor的运行时间达到63% 和72%;同时性