没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
在各种聚类算法中,K―means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;
资源推荐
资源详情
资源评论
第 45卷 第 3期
2009年 5月
南 京 大 学学 报 (自然 科 学 )
JOURNAL OF NANJING UNIVERSITY
(NATU RAL SCIEN CES)
V o1.45,No.3
M ay,2009
Design and sim ulation of a docum ent clustering algorithm
based on genetic algorithm
W ei Jian—Xiang ’ .Liu H uai。.Su Xin—N ing
(1.Department of Information Management,Nanjing University,210096,China)
(2.Department of Information Science,Nanjing College for Population Programme Management,210042,China)
(3.School of Electrical and Electronic Engineering,Nanjing Normal University,210042。China)
Abstract: Among various document algorithms,K—means is a classical one. However it is a greedy
algorithm , which is sensitive to the choice of cluster center and is much easier to result in local
optim ization.A s genetic algorithm (GA)is a global convergence algorithm and the best cluster center can
be found easily,a new dynam ic document clustering m ethod based on GA is presented in this paper.
Reviewing all kinds of traditional docum ent clustering methods,the partial sim ilarity of keywords was
not taken into account,SO the document similar matrix is a sparse matrix.To some extent,the accuracy
of document similarity is influenced. In this paper,some new formulas are given which are improved
based on the traditional method.The form ulas take the partial similarity of keywords into account,thus
im proving the accuracy of the calculation of sim ilarity. In this algorithm , the single individual is
presented by a matrix which consists of K cluster centers.All individuals are encoded by floating—point
numbers. The reciprocal of the sum of mean square deviation of intra class distance plus one is adopted as
the fitness function. The smaller the fitness function,the littler probability that the individual can be
selected to enter the next generation.The optimal cluster center is finally found by the following iteration
process:selection,crossover,mutation and SO on.The sim ulation results show that the accuracy of this
classification can reach over 98 percent and the algorithm is superior to K—means in performance. Thus,
the algorithm of this paper is an effective method of document clustering.
Key words: docum ent clustering,genetic algorithm ,similarity,cluster center
基 于 遗传 算 法 的 文档 聚 类算 法 的设 计 与 仿 真
魏 建 香 ,刘 怀。,苏 新 宁
(1.南 京 大学 信 息 管 理系 ,南 京 ,210093)
(2.南 京人 口管 理 干 部 学 院 信 息 科 学 系 ,南 京 ,210042)
(3.南京师范大学电气与 自动化工程学 院,南京 ,210042)
摘 要 : 在 各 种 聚类 算 法 中 ,K—means是一 种 基 于划 分 的 经 典 算 法 .但 是 由于 K means方法 对 于 初 始 中心 点 的 选
择非常敏感 ,有可能 导致 聚类结果 收敛于 局部 ,本 文提 出了一种基 于遗传算 法来 对类 中心 点 进 行全 局寻 优 的 文档
Foundation Item :Nationa1 Natural Science Foundation of China(10771076)
Received Date:2008— 11~ 1l
* Corresponding Author,E—mail:jxwei@ foxmail.corn
第 3期 魏建香等 :基 于遗 传算 法 的文 档聚 类算 法的 设计 与仿 真 · 433 ·
聚类 算 法 .在传 统 相似 度计 算 的 方法 中 ,文 档 相 似矩 阵 为 绝 大部 分 元 素 为 0的稀 疏 矩 阵 ,忽 略 了关 键 字之 间 的部 分
相似性 ,影响了文 档之 间的 相似 度.为此 ,本文改变 了传 统相似度计算的方法 ,通过 关键字之 问的部分相 似度 ,设计
出更 加 精 确的 文 档 相 似度 计 算 公 式。在遗 传算 法的设 计 中 ,将 K 个 类 中心 点 组 成 的矩 阵 作 为 初始 个 体 ,采 用 浮 点 数
进 行 编 码 ;适 应 度 函数 采用 所 有 类 内距 离 的均 方 差 之 和 加 1的倒 数 表 示 ,当类 内均 方 差 之 和越 小 ,则 个 体 的适 应 度
越 大 ,被 选择 进 入 下 一代 的概 率 也 越 大.通 过 选 择 、交 叉和 变 异 等 步骤 对 聚类 的 中心 点 进 行 反 复 迭 代 寻 优 ,最 终 找
到 最 优 的 类 中 心 点 .通 过实 验 仿 真 ,K—means收敛 速 度快 ,聚 类 的平 均 目标 函数 大 于 genetic algorithm (GA)且 正 确
率 明 显 小 于 GA.本 文 提 出 的 GA 算 法 的分 类 正确 率 能 达 到 98 以 上 ,与 传 统 的 K—means方 法 相 比 ,聚类 的 准 确 性
更 高 ,说 明本 文提 出 的算 法 是 一 种 行 之 有 效 的 文档 聚类 方法 .
关 键 词 : 文 档 聚 类 ,遗传 算 法 ,相 似 度 ,类 中 心
中图 分 类 号 : TP 18
Clustering analysis is an important re—
search field of artificial intelligence and data
mining. Its basic idea is to use characters to
m easure the degree of similar relationship a——
mong objects and to achieve automatic classifi—
cation in the absence of prior knowledge. All
the clustering approaches are to construct the
fuzzy matrix in accordance with their own at—
tributes,and then on this basis,to determine
their classification relations according to the
degree of affinity.Similarly,docum ent cluste—
ring is to put the document of high similarity
together by computing the sim ilarities am ong
docum ents and certain strategy. Docum ent
clustering is very meaningfu1. Through data
mining of docum ent database,we can identify
much potential and hidden knowledge,such as
the cross—relationship between subjects, the
focus of researches and academic growth
point. Such knowledge can not only help the
researchers to master the subject knowledge
map,but also provide the academ ic researches
with decision—m aking services. Am ong all the
methods of document clustering, the refer
ence[ ] presents an approach named dividing
classification,w hich is based on the sim ilarity
of documents, but actually the impacts of
clustering haven’t been discussed effectively.
In the reference[ ,the author uses the genetic
algorithm to optimize the value of K of K—
m eans without knowing the number of catego—
ry. The reference[。] is a clustering method
based upon the similarity of document key—
words.The reference brings forward a new
algorithm based on-the structure of GM L
files. However, these m ethods did not take
the cluster center into consideration. It is
worth m entioning that the kernel issue of
clustering is to find the best cluster centers,
the choice of which has a direct influence on
the clustering. At present, the most widely
used method is K—means based on the obj ec—
tive function.However,its obj ective function
exist the local m inimum[ ]and it is 3 greedy
algorithm ,so it’s m uch easier to result in lo—
cal optimization. W hat’s more, such a meth—
od is extrem ely sensitive to the choice of clus—
ter center. M any scholars made plenty of im—
provem ent on K means[ ~
. For example,P.
S. Bradley and others proposed a m ethod of
selecting a number of subsets random ly from
the data and repeating carrying out K —m eans
to get the initial cluster center, but such a
center is probably the suboptim al result.
Genetic algorithm (GA )is a search algo—
rithm developed from the biologically natural
selection and evolution m echanism . Because of
its abilities of self——adaptation and self-organi——
zation,it is widely used to solve som e com pli—
cated optimization problems and it has nothing
to do with the question itself. It is sim ple,
com mon, robust, general—purpose and suit—
剩余6页未读,继续阅读
资源评论
weixin_38526421
- 粉丝: 5
- 资源: 985
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功