本文主要研究了大数据领域的聚类算法模型及其在生物信息学中的应用。聚类算法是数据挖掘中的核心工具,用于发现数据集中的自然群体或模式。在大数据背景下,由于数据的高维度性和复杂性,传统的聚类算法面临挑战,因此需要探索新的方法来应对这些问题。
文章探讨了微阵列中稠密区的研究。稠密区是具有统计意义的数据模式集合,对于识别基因模式和相关样本集合至关重要。通过对稠密区的特性分析,可以将其划分为不同类别,有助于消除孤立点、噪声和异常模式。作者通过实际数据集验证了这种方法的有效性,例如在0-甘露聚糖酶样本和酵母菌基因表达数据上的应用,表现出良好的聚类性能。
文章关注基因网络模块的探测。基因网络由多个模块构成,识别这些模块对于理解整个网络结构至关重要。作者提出了一种结合节点不相似度测量与聚类算法的方法,该方法基于拓扑覆盖矩阵,并与双向层次聚类算法结合,能够在基因表达网络中有效地识别模块。此方法优于基于节点度的连接方法,尤其在发现较大模块时更为突出。
接着,文章讨论了基于随机投影集合的高维数据聚类。高维数据的处理是大数据分析的一大难题,作者采用随机投影和双向图划分法,特别是引入了基于OPTOC的竞争学习算法,生成多个低维基聚类并组合它们。实验结果显示,这种方法在多个数据集上优于其他集合构造器,且双向图划分法对基聚类集合的改善效果显著。
文章深入研究了基于尺度的聚类模型。这种模型允许用户根据不同的尺度动态调整聚类,适应不同的数据观测需求。作者分析了基于Rényi熵和分离指标的聚类质量评测,以及尺度参数的影响,并在实际应用中展示了尺度聚类算法的优势。
本文对聚类算法模型进行了全面的研究,不仅提出了适用于高维数据和生物信息学的新型聚类方法,还通过实证分析验证了这些方法的有效性和优越性。这些研究为大数据环境下的数据分析提供了新的工具和技术,有助于提升聚类算法在复杂数据集上的性能和解释力。