基于遗传算法的文档聚类算法的设计与仿真(2009年)资源-CSDN文库

自然科学

论文

58 浏览量 2021-05-11 15:09:59 上传评论收藏 319KB PDF 举报

资源推荐

资源详情

资源评论

第４５卷第３期　

２００９年５月　

南京大学学报（自然科学）　

ＪＯＵＲＮＡＬ　ＯＦ　ＮＡＮＪＩＮＧ　ＵＮＩＶＥＲＳＩＴＹ　

（ＮＡＴＵＲＡＬ　ＳＣＩＥＮＣＥＳ）　

Ｖｏ１．４５，Ｎｏ．３　

Ｍａｙ，２００９　

Ｄｅｓｉｇｎ　ａｎｄ　ｓｉｍｕｌａｔｉｏｎ　ｏｆ　ａ　ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ　

ｂａｓｅｄ　ｏｎ　ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ　

Ｗｅｉ　Ｊｉａｎ—Ｘｉａｎｇ　’　．Ｌｉｕ　Ｈｕａｉ。．Ｓｕ　Ｘｉｎ—Ｎｉｎｇ　

（１．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｍａｎａｇｅｍｅｎｔ，Ｎａｎｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，２１００９６，Ｃｈｉｎａ）　

（２．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ，Ｎａｎｊｉｎｇ　Ｃｏｌｌｅｇｅ　ｆｏｒ　Ｐｏｐｕｌａｔｉｏｎ　Ｐｒｏｇｒａｍｍｅ　Ｍａｎａｇｅｍｅｎｔ，２１００４２，Ｃｈｉｎａ）　

（３．Ｓｃｈｏｏｌ　ｏｆ　Ｅｌｅｃｔｒｉｃａｌ　ａｎｄ　Ｅｌｅｃｔｒｏｎｉｃ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｎａｎｊｉｎｇ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，２１００４２。Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：　Ａｍｏｎｇ　ｖａｒｉｏｕｓ　ｄｏｃｕｍｅｎｔ　ａｌｇｏｒｉｔｈｍｓ，Ｋ—ｍｅａｎｓ　ｉｓ　ａ　ｃｌａｓｓｉｃａｌ　ｏｎｅ．Ｈｏｗｅｖｅｒ　ｉｔ　ｉｓ　ａ　ｇｒｅｅｄｙ　

ａｌｇｏｒｉｔｈｍ，ｗｈｉｃｈ　ｉｓ　ｓｅｎｓｉｔｉｖｅ　ｔｏ　ｔｈｅ　ｃｈｏｉｃｅ　ｏｆ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　ａｎｄ　ｉｓ　ｍｕｃｈ　ｅａｓｉｅｒ　ｔｏ　ｒｅｓｕｌｔ　ｉｎ　ｌｏｃａｌ　

ｏｐｔｉｍｉｚａｔｉｏｎ．Ａｓ　ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ（ＧＡ）ｉｓ　ａ　ｇｌｏｂａｌ　ｃｏｎｖｅｒｇｅｎｃｅ　ａｌｇｏｒｉｔｈｍ　ａｎｄ　ｔｈｅ　ｂｅｓｔ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　ｃａｎ　

ｂｅ　ｆｏｕｎｄ　ｅａｓｉｌｙ，ａ　ｎｅｗ　ｄｙｎａｍｉｃ　ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ＧＡ　ｉｓ　ｐｒｅｓｅｎｔｅｄ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ．　

Ｒｅｖｉｅｗｉｎｇ　ａｌｌ　ｋｉｎｄｓ　ｏｆ　ｔｒａｄｉｔｉｏｎａｌ　ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ　ｍｅｔｈｏｄｓ，ｔｈｅ　ｐａｒｔｉａｌ　ｓｉｍｉｌａｒｉｔｙ　ｏｆ　ｋｅｙｗｏｒｄｓ　ｗａｓ　

ｎｏｔ　ｔａｋｅｎ　ｉｎｔｏ　ａｃｃｏｕｎｔ，ＳＯ　ｔｈｅ　ｄｏｃｕｍｅｎｔ　ｓｉｍｉｌａｒ　ｍａｔｒｉｘ　ｉｓ　ａ　ｓｐａｒｓｅ　ｍａｔｒｉｘ．Ｔｏ　ｓｏｍｅ　ｅｘｔｅｎｔ，ｔｈｅ　ａｃｃｕｒａｃｙ　

ｏｆ　ｄｏｃｕｍｅｎｔ　ｓｉｍｉｌａｒｉｔｙ　ｉｓ　ｉｎｆｌｕｅｎｃｅｄ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｓｏｍｅ　ｎｅｗ　ｆｏｒｍｕｌａｓ　ａｒｅ　ｇｉｖｅｎ　ｗｈｉｃｈ　ａｒｅ　ｉｍｐｒｏｖｅｄ　

ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｍｅｔｈｏｄ．Ｔｈｅ　ｆｏｒｍｕｌａｓ　ｔａｋｅ　ｔｈｅ　ｐａｒｔｉａｌ　ｓｉｍｉｌａｒｉｔｙ　ｏｆ　ｋｅｙｗｏｒｄｓ　ｉｎｔｏ　ａｃｃｏｕｎｔ，ｔｈｕｓ　

ｉｍｐｒｏｖｉｎｇ　ｔｈｅ　ａｃｃｕｒａｃｙ　ｏｆ　ｔｈｅ　ｃａｌｃｕｌａｔｉｏｎ　ｏｆ　ｓｉｍｉｌａｒｉｔｙ．Ｉｎ　ｔｈｉｓ　ａｌｇｏｒｉｔｈｍ，ｔｈｅ　ｓｉｎｇｌｅ　ｉｎｄｉｖｉｄｕａｌ　ｉｓ　

ｐｒｅｓｅｎｔｅｄ　ｂｙ　ａ　ｍａｔｒｉｘ　ｗｈｉｃｈ　ｃｏｎｓｉｓｔｓ　ｏｆ　Ｋ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒｓ．Ａｌｌ　ｉｎｄｉｖｉｄｕａｌｓ　ａｒｅ　ｅｎｃｏｄｅｄ　ｂｙ　ｆｌｏａｔｉｎｇ—ｐｏｉｎｔ　

ｎｕｍｂｅｒｓ．Ｔｈｅ　ｒｅｃｉｐｒｏｃａｌ　ｏｆ　ｔｈｅ　ｓｕｍ　ｏｆ　ｍｅａｎ　ｓｑｕａｒｅ　ｄｅｖｉａｔｉｏｎ　ｏｆ　ｉｎｔｒａ　ｃｌａｓｓ　ｄｉｓｔａｎｃｅ　ｐｌｕｓ　ｏｎｅ　ｉｓ　ａｄｏｐｔｅｄ　ａｓ　

ｔｈｅ　ｆｉｔｎｅｓｓ　ｆｕｎｃｔｉｏｎ．Ｔｈｅ　ｓｍａｌｌｅｒ　ｔｈｅ　ｆｉｔｎｅｓｓ　ｆｕｎｃｔｉｏｎ，ｔｈｅ　ｌｉｔｔｌｅｒ　ｐｒｏｂａｂｉｌｉｔｙ　ｔｈａｔ　ｔｈｅ　ｉｎｄｉｖｉｄｕａｌ　ｃａｎ　ｂｅ　

ｓｅｌｅｃｔｅｄ　ｔｏ　ｅｎｔｅｒ　ｔｈｅ　ｎｅｘｔ　ｇｅｎｅｒａｔｉｏｎ．Ｔｈｅ　ｏｐｔｉｍａｌ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　ｉｓ　ｆｉｎａｌｌｙ　ｆｏｕｎｄ　ｂｙ　ｔｈｅ　ｆｏｌｌｏｗｉｎｇ　ｉｔｅｒａｔｉｏｎ　

ｐｒｏｃｅｓｓ：ｓｅｌｅｃｔｉｏｎ，ｃｒｏｓｓｏｖｅｒ，ｍｕｔａｔｉｏｎ　ａｎｄ　ＳＯ　ｏｎ．Ｔｈｅ　ｓｉｍｕｌａｔｉｏｎ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ａｃｃｕｒａｃｙ　ｏｆ　ｔｈｉｓ　

ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｃａｎ　ｒｅａｃｈ　ｏｖｅｒ　９８　ｐｅｒｃｅｎｔ　ａｎｄ　ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｓｕｐｅｒｉｏｒ　ｔｏ　Ｋ—ｍｅａｎｓ　ｉｎ　ｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｕｓ，　

ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ｏｆ　ｔｈｉｓ　ｐａｐｅｒ　ｉｓ　ａｎ　ｅｆｆｅｃｔｉｖｅ　ｍｅｔｈｏｄ　ｏｆ　ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ．　

Ｋｅｙ　ｗｏｒｄｓ：ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ，ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ，ｓｉｍｉｌａｒｉｔｙ，ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　

基于遗传算法的文档聚类算法的设计与仿真　

魏建香　，刘　怀。，苏新宁　

（１．南京大学信息管理系，南京，２１００９３）　

（２．南京人口管理干部学院信息科学系，南京，２１００４２）　

（３．南京师范大学电气与自动化工程学院，南京，２１００４２）　

摘　要：　在各种聚类算法中，Ｋ—ｍｅａｎｓ是一种基于划分的经典算法．但是由于Ｋ　ｍｅａｎｓ方法对于初始中心点的选　

择非常敏感，有可能导致聚类结果收敛于局部，本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档　

Ｆｏｕｎｄａｔｉｏｎ　Ｉｔｅｍ：Ｎａｔｉｏｎａ１　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ（１０７７１０７６）　

Ｒｅｃｅｉｖｅｄ　Ｄａｔｅ：２００８— １１～１ｌ　

＊　Ｃｏｒｒｅｓｐｏｎｄｉｎｇ　Ａｕｔｈｏｒ，Ｅ—ｍａｉｌ：ｊｘｗｅｉ＠ｆｏｘｍａｉｌ．ｃｏｒｎ　

第３期　魏建香等：基于遗传算法的文档聚类算法的设计与仿真　 ·　４３３　·　

聚类算法．在传统相似度计算的方法中，文档相似矩阵为绝大部分元素为０的稀疏矩阵，忽略了关键字之间的部分　

相似性，影响了文档之间的相似度．为此，本文改变了传统相似度计算的方法，通过关键字之问的部分相似度，设计　

出更加精确的文档相似度计算公式。在遗传算法的设计中，将Ｋ个类中心点组成的矩阵作为初始个体，采用浮点数　

进行编码；适应度函数采用所有类内距离的均方差之和加１的倒数表示，当类内均方差之和越小，则个体的适应度　

越大，被选择进入下一代的概率也越大．通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优，最终找　

到最优的类中心点．通过实验仿真，Ｋ—ｍｅａｎｓ收敛速度快，聚类的平均目标函数大于ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ（ＧＡ）且正确　

率明显小于ＧＡ．本文提出的ＧＡ算法的分类正确率能达到９８　以上，与传统的Ｋ—ｍｅａｎｓ方法相比，聚类的准确性　

更高，说明本文提出的算法是一种行之有效的文档聚类方法．　

关键词：文档聚类，遗传算法，相似度，类中心　

中图分类号：ＴＰ　１８　

Ｃｌｕｓｔｅｒｉｎｇ　ａｎａｌｙｓｉｓ　ｉｓ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｒｅ—　

ｓｅａｒｃｈ　ｆｉｅｌｄ　ｏｆ　ａｒｔｉｆｉｃｉａｌ　ｉｎｔｅｌｌｉｇｅｎｃｅ　ａｎｄ　ｄａｔａ　

ｍｉｎｉｎｇ．Ｉｔｓ　ｂａｓｉｃ　ｉｄｅａ　ｉｓ　ｔｏ　ｕｓｅ　ｃｈａｒａｃｔｅｒｓ　ｔｏ　

ｍｅａｓｕｒｅ　ｔｈｅ　ｄｅｇｒｅｅ　ｏｆ　ｓｉｍｉｌａｒ　ｒｅｌａｔｉｏｎｓｈｉｐ　ａ——　

ｍｏｎｇ　ｏｂｊｅｃｔｓ　ａｎｄ　ｔｏ　ａｃｈｉｅｖｅ　ａｕｔｏｍａｔｉｃ　ｃｌａｓｓｉｆｉ—　

ｃａｔｉｏｎ　ｉｎ　ｔｈｅ　ａｂｓｅｎｃｅ　ｏｆ　ｐｒｉｏｒ　ｋｎｏｗｌｅｄｇｅ．Ａｌｌ　

ｔｈｅ　ｃｌｕｓｔｅｒｉｎｇ　ａｐｐｒｏａｃｈｅｓ　ａｒｅ　ｔｏ　ｃｏｎｓｔｒｕｃｔ　ｔｈｅ　

ｆｕｚｚｙ　ｍａｔｒｉｘ　ｉｎ　ａｃｃｏｒｄａｎｃｅ　ｗｉｔｈ　ｔｈｅｉｒ　ｏｗｎ　ａｔ—　

ｔｒｉｂｕｔｅｓ，ａｎｄ　ｔｈｅｎ　ｏｎ　ｔｈｉｓ　ｂａｓｉｓ，ｔｏ　ｄｅｔｅｒｍｉｎｅ　

ｔｈｅｉｒ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｒｅｌａｔｉｏｎｓ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　

ｄｅｇｒｅｅ　ｏｆ　ａｆｆｉｎｉｔｙ．Ｓｉｍｉｌａｒｌｙ，ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅ—　

ｒｉｎｇ　ｉｓ　ｔｏ　ｐｕｔ　ｔｈｅ　ｄｏｃｕｍｅｎｔ　ｏｆ　ｈｉｇｈ　ｓｉｍｉｌａｒｉｔｙ　

ｔｏｇｅｔｈｅｒ　ｂｙ　ｃｏｍｐｕｔｉｎｇ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｉｅｓ　ａｍｏｎｇ　

ｄｏｃｕｍｅｎｔｓ　ａｎｄ　ｃｅｒｔａｉｎ　ｓｔｒａｔｅｇｙ．Ｄｏｃｕｍｅｎｔ　

ｃｌｕｓｔｅｒｉｎｇ　ｉｓ　ｖｅｒｙ　ｍｅａｎｉｎｇｆｕ１．Ｔｈｒｏｕｇｈ　ｄａｔａ　

ｍｉｎｉｎｇ　ｏｆ　ｄｏｃｕｍｅｎｔ　ｄａｔａｂａｓｅ，ｗｅ　ｃａｎ　ｉｄｅｎｔｉｆｙ　

ｍｕｃｈ　ｐｏｔｅｎｔｉａｌ　ａｎｄ　ｈｉｄｄｅｎ　ｋｎｏｗｌｅｄｇｅ，ｓｕｃｈ　ａｓ　

ｔｈｅ　ｃｒｏｓｓ—ｒｅｌａｔｉｏｎｓｈｉｐ　ｂｅｔｗｅｅｎ　ｓｕｂｊｅｃｔｓ，ｔｈｅ　

ｆｏｃｕｓ　ｏｆ　ｒｅｓｅａｒｃｈｅｓ　ａｎｄ　ａｃａｄｅｍｉｃ　ｇｒｏｗｔｈ　

ｐｏｉｎｔ．Ｓｕｃｈ　ｋｎｏｗｌｅｄｇｅ　ｃａｎ　ｎｏｔ　ｏｎｌｙ　ｈｅｌｐ　ｔｈｅ　

ｒｅｓｅａｒｃｈｅｒｓ　ｔｏ　ｍａｓｔｅｒ　ｔｈｅ　ｓｕｂｊｅｃｔ　ｋｎｏｗｌｅｄｇｅ　

ｍａｐ，ｂｕｔ　ａｌｓｏ　ｐｒｏｖｉｄｅ　ｔｈｅ　ａｃａｄｅｍｉｃ　ｒｅｓｅａｒｃｈｅｓ　

ｗｉｔｈ　ｄｅｃｉｓｉｏｎ—ｍａｋｉｎｇ　ｓｅｒｖｉｃｅｓ．Ａｍｏｎｇ　ａｌｌ　ｔｈｅ　

ｍｅｔｈｏｄｓ　ｏｆ　ｄｏｃｕｍｅｎｔ　ｃｌｕｓｔｅｒｉｎｇ，ｔｈｅ　ｒｅｆｅｒ　

ｅｎｃｅ［　］ｐｒｅｓｅｎｔｓ　ａｎ　ａｐｐｒｏａｃｈ　ｎａｍｅｄ　ｄｉｖｉｄｉｎｇ　

ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｗｈｉｃｈ　ｉｓ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｙ　

ｏｆ　ｄｏｃｕｍｅｎｔｓ，ｂｕｔ　ａｃｔｕａｌｌｙ　ｔｈｅ　ｉｍｐａｃｔｓ　ｏｆ　

ｃｌｕｓｔｅｒｉｎｇ　ｈａｖｅｎ’ｔ　ｂｅｅｎ　ｄｉｓｃｕｓｓｅｄ　ｅｆｆｅｃｔｉｖｅｌｙ．　

Ｉｎ　ｔｈｅ　ｒｅｆｅｒｅｎｃｅ［　，ｔｈｅ　ａｕｔｈｏｒ　ｕｓｅｓ　ｔｈｅ　ｇｅｎｅｔｉｃ　

ａｌｇｏｒｉｔｈｍ　ｔｏ　ｏｐｔｉｍｉｚｅ　ｔｈｅ　ｖａｌｕｅ　ｏｆ　Ｋ　ｏｆ　Ｋ—　

ｍｅａｎｓ　ｗｉｔｈｏｕｔ　ｋｎｏｗｉｎｇ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｃａｔｅｇｏ—　

ｒｙ．Ｔｈｅ　ｒｅｆｅｒｅｎｃｅ［。］ｉｓ　ａ　ｃｌｕｓｔｅｒｉｎｇ　ｍｅｔｈｏｄ　

ｂａｓｅｄ　ｕｐｏｎ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｙ　ｏｆ　ｄｏｃｕｍｅｎｔ　ｋｅｙ—　

ｗｏｒｄｓ．Ｔｈｅ　ｒｅｆｅｒｅｎｃｅ　ｂｒｉｎｇｓ　ｆｏｒｗａｒｄ　ａ　ｎｅｗ　

ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ－ｔｈｅ　ｓｔｒｕｃｔｕｒｅ　ｏｆ　ＧＭＬ　

ｆｉｌｅｓ．Ｈｏｗｅｖｅｒ，ｔｈｅｓｅ　ｍｅｔｈｏｄｓ　ｄｉｄ　ｎｏｔ　ｔａｋｅ　

ｔｈｅ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ　ｉｎｔｏ　ｃｏｎｓｉｄｅｒａｔｉｏｎ．　Ｉｔ　ｉｓ　

ｗｏｒｔｈ　ｍｅｎｔｉｏｎｉｎｇ　ｔｈａｔ　ｔｈｅ　ｋｅｒｎｅｌ　ｉｓｓｕｅ　ｏｆ　

ｃｌｕｓｔｅｒｉｎｇ　ｉｓ　ｔｏ　ｆｉｎｄ　ｔｈｅ　ｂｅｓｔ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒｓ，　

ｔｈｅ　ｃｈｏｉｃｅ　ｏｆ　ｗｈｉｃｈ　ｈａｓ　ａ　ｄｉｒｅｃｔ　ｉｎｆｌｕｅｎｃｅ　ｏｎ　

ｔｈｅ　ｃｌｕｓｔｅｒｉｎｇ．Ａｔ　ｐｒｅｓｅｎｔ，ｔｈｅ　ｍｏｓｔ　ｗｉｄｅｌｙ　

ｕｓｅｄ　ｍｅｔｈｏｄ　ｉｓ　Ｋ—ｍｅａｎｓ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｏｂｊ　ｅｃ—　

ｔｉｖｅ　ｆｕｎｃｔｉｏｎ．Ｈｏｗｅｖｅｒ，ｉｔｓ　ｏｂｊ　ｅｃｔｉｖｅ　ｆｕｎｃｔｉｏｎ　

ｅｘｉｓｔ　ｔｈｅ　ｌｏｃａｌ　ｍｉｎｉｍｕｍ［　］ａｎｄ　ｉｔ　ｉｓ　３　ｇｒｅｅｄｙ　

ａｌｇｏｒｉｔｈｍ，ｓｏ　ｉｔ’ｓ　ｍｕｃｈ　ｅａｓｉｅｒ　ｔｏ　ｒｅｓｕｌｔ　ｉｎ　ｌｏ—　

ｃａｌ　ｏｐｔｉｍｉｚａｔｉｏｎ．Ｗｈａｔ’ｓ　ｍｏｒｅ，ｓｕｃｈ　ａ　ｍｅｔｈ—　

ｏｄ　ｉｓ　ｅｘｔｒｅｍｅｌｙ　ｓｅｎｓｉｔｉｖｅ　ｔｏ　ｔｈｅ　ｃｈｏｉｃｅ　ｏｆ　ｃｌｕｓ—　

ｔｅｒ　ｃｅｎｔｅｒ．Ｍａｎｙ　ｓｃｈｏｌａｒｓ　ｍａｄｅ　ｐｌｅｎｔｙ　ｏｆ　ｉｍ—　

ｐｒｏｖｅｍｅｎｔ　ｏｎ　Ｋ　ｍｅａｎｓ［　～　

．Ｆｏｒ　ｅｘａｍｐｌｅ，Ｐ．　

Ｓ．Ｂｒａｄｌｅｙ　ａｎｄ　ｏｔｈｅｒｓ　ｐｒｏｐｏｓｅｄ　ａ　ｍｅｔｈｏｄ　ｏｆ　

ｓｅｌｅｃｔｉｎｇ　ａ　ｎｕｍｂｅｒ　ｏｆ　ｓｕｂｓｅｔｓ　ｒａｎｄｏｍｌｙ　ｆｒｏｍ　

ｔｈｅ　ｄａｔａ　ａｎｄ　ｒｅｐｅａｔｉｎｇ　ｃａｒｒｙｉｎｇ　ｏｕｔ　Ｋ —ｍｅａｎｓ　

ｔｏ　ｇｅｔ　ｔｈｅ　ｉｎｉｔｉａｌ　ｃｌｕｓｔｅｒ　ｃｅｎｔｅｒ，ｂｕｔ　ｓｕｃｈ　ａ　

ｃｅｎｔｅｒ　ｉｓ　ｐｒｏｂａｂｌｙ　ｔｈｅ　ｓｕｂｏｐｔｉｍａｌ　ｒｅｓｕｌｔ．　

Ｇｅｎｅｔｉｃ　ａｌｇｏｒｉｔｈｍ（ＧＡ）ｉｓ　ａ　ｓｅａｒｃｈ　ａｌｇｏ—　

ｒｉｔｈｍ　ｄｅｖｅｌｏｐｅｄ　ｆｒｏｍ　ｔｈｅ　ｂｉｏｌｏｇｉｃａｌｌｙ　ｎａｔｕｒａｌ　

ｓｅｌｅｃｔｉｏｎ　ａｎｄ　ｅｖｏｌｕｔｉｏｎ　ｍｅｃｈａｎｉｓｍ．Ｂｅｃａｕｓｅ　ｏｆ　

ｉｔｓ　ａｂｉｌｉｔｉｅｓ　ｏｆ　ｓｅｌｆ——ａｄａｐｔａｔｉｏｎ　ａｎｄ　ｓｅｌｆ－ｏｒｇａｎｉ——　

ｚａｔｉｏｎ，ｉｔ　ｉｓ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｔｏ　ｓｏｌｖｅ　ｓｏｍｅ　ｃｏｍｐｌｉ—　

ｃａｔｅｄ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｐｒｏｂｌｅｍｓ　ａｎｄ　ｉｔ　ｈａｓ　ｎｏｔｈｉｎｇ　

ｔｏ　ｄｏ　ｗｉｔｈ　ｔｈｅ　ｑｕｅｓｔｉｏｎ　ｉｔｓｅｌｆ．Ｉｔ　ｉｓ　ｓｉｍｐｌｅ，　

ｃｏｍｍｏｎ，ｒｏｂｕｓｔ，ｇｅｎｅｒａｌ—ｐｕｒｐｏｓｅ　ａｎｄ　ｓｕｉｔ—　

剩余6页未读，继续阅读

评论收藏

内容反馈

weixin_38526421

粉丝: 5
资源: 985

基于遗传算法的文档聚类算法的设计与仿真 (2009年)

最新资源

基于遗传算法的文档聚类算法的设计与仿真 (2009年)

基于遗传算法的聚类分析论文

热门 遗传算法共12页文档.pdf

热门 遗传算法共12页文档.docx

遗传算法与工程设计

基于遗传模拟退火算法的聚类算法

基于遗传算法的聚类挖掘研究

遗传算法数据聚类遗传算法数据聚类

遗传算法程序 matlab.docx-综合文档

算法设计基础

基于遗传进化的最近邻聚类算法及其应用

聚类算法论文

遗传算法和聚类算法结合的matlab程序

chapter20 基于遗传模拟退火算法的聚类算法_聚类改进_遗传模拟退火算法的聚类算_遗传算法_

基于遗传算法优化聚类实现图像分割附Matlab代码

遗传算法与聚类结合的matlab程序

毕业设计：基于C++的AP聚类算法设计与实现.zip

遗传算法聚类设计PPT学习教案.pptx

基于遗传算法的K-means聚类改进研究.pdf

遗传算法与粒子群算法的实现

基于Matlab的遗传算法研究及仿真【精品毕业设计】(完整版).pdf

基于遗传算法的K_MEANS聚类改进研究

遗传算法-聚类分析问题.zip

GC-Program.rar_聚类遗传算法_遗传 聚类_遗传算法仿真_遗传聚类_遗传聚类算法

chapter20基于遗传模拟退火算法的聚类算法,模拟退火算法和遗传算法结合,matlab

基于改进量子遗传算法的聚类算法研究.pdf

一种基于遗传算法的混合聚类技术

最新资源

热门遗传算法共12页文档.pdf

热门遗传算法共12页文档.docx

GC-Program.rar_聚类遗传算法_遗传聚类_遗传算法仿真_遗传聚类_遗传聚类算法