
第 31 卷第 1 期
2001 年 1 月
数学的实践与认识
MA THEMA T ICS IN PRACT ICE AND THEORY
Vo l131 No11
Jan. 2001
sequences
.
The second is the periodic p roperty of the DNA sequences
.
The third is that amount
of info rm ation of the sequences
.
By using this m ethod
,
w e classify the nature sequences and
artifical sequences
.
A t last
,
w e analyze the characteristic in this model and consider the
generalization of this model
.
关于
DNA
序列分类问题的模型
冯 涛, 康
吉吉
雯, 韩小军
指导老师: 贺明峰
(
大连理工大学, 大连 116024
)
编者按: 本文以统计方法提取样本特征, 以之作为
BP
神经网络的输入, 用
MA TLAB
中相应算法进行训
练. 然后用于解决本分类问题, 得到了较准确的结果. 本文提取特征时考虑较为全面, 在此基础上正确地运
用了神经网络方法, 发挥了神经网络适用于非线性问题、具有自适应能力的优点. 思路清楚, 文字简练.
摘要: 本文提出了一种将人工神经元网络用于
DNA
分类的方法. 作者首先应用概率统计的方法对 20 个
已知类别的人工
DNA
序列进行特征提取, 形成
DNA
序列的特征向量, 并将之作为样本输入
BP
神经网络进
行学习. 作者应用了
MA TLAB
软件包中的
N euralN etwo rk Too lbox
(
神经网络工具箱
)
中的反向传播
(
Back
p ropagation BP
)
算法来训练神经网络. 在本文中, 作者构造了两个三层
BP
神经网络, 将提取的
DNA
特征向
量集作为样本分别输入这两个网络进行学习. 通过训练后, 将 20 个未分类的人工序列样本和 182 个自然序
列样本提取特征形成特征向量并输入两个网络进行分类. 结果表明: 本文中提出的分类方法能够以很高的
正确率和精度对
DNA
序列进行分类, 将人工神经元网络用于
DNA
序列分类是完全可行的.
1 问题重述
(
略
)
DNA
序列由四个碱基
A
、
T
、
C
、
G
按一定规律排列而成. 已知所给人工序列 1- 10 属
于
A
类, 11- 20 属于
B
类. 本题中, 我们的主要工作有两个:
1
)
提取
A
、
B
两类特征;
2
)
以所提取
A
、
B
两类特征为依据, 把 20 个人工序列及 182 个自然序列分为
A
、
B
两类
(
可能存在同时不具有
A
、
B
两类特征, 不能归为
A
、
B
中任一类的序列
)
.
在本题中, 先以序列 1- 20 为依据, 提取出
A
、
B
两类序列的统计特征, 然后运用神经网
络中的
BP
网络对未知序列进行了分类识别.
2 模型建立的理论依据
神经网络是近年来发展的一种大规模并行分布处理的非线性系统
[1 ]
, 其主要特点有:
1
)
能以任意精度逼近任意给定连续的非线性函数;
2
)
对复杂不确定问题具有自适应和自学习能力;
3
)
具有较强的容错能力和信息综合能力, 能同时处理定量和定性的信息, 能很好地协
调多种输入信息的关系.
传统的分类识别方法, 对于一般非线性系统的识别很困难, 而神经网络却为此提供了一