没有合适的资源?快使用搜索试试~ 我知道了~
本模型充分利用了所给数据的特点,运用统计、最优化等数学方法,从已知样本序列中提炼出能较好代表两类特征的关键字符串,据此提出量化的分类标准,能较好的对任给DNA序列进行分类.首先,从已知样本序列中用广度优先法选出所有重复出现的字符串,并计算其标准化频率及分散度.然后,利用样本数据结合最小二乘法确定两类字符串各自的优先级函数,并且逐步优化其参数使之达到稳定,提高了可信度.最后,根据优先级函数找出关键词,然后确定权数,用层次分析法对未知样本进行分类,并定出显著水平,从而得到了一个比较通用的分类方法.经过检验,此方法对21—40号待测样本进行了很好的分类,对后面的182个DNA序列进行同样的操作,也有较好的效果.
资源推荐
资源详情
资源评论
第 31 卷第 1 期
2001 年 1 月
数学的实践与认识
MA THEMA T ICS IN PRACT ICE AND THEORY
Vo l131 No11
Jan. 2001
sequences
.
The second is the periodic p roperty of the DNA sequences
.
The third is that amount
of info rm ation of the sequences
.
By using this m ethod
,
w e classify the nature sequences and
artifical sequences
.
A t last
,
w e analyze the characteristic in this model and consider the
generalization of this model
.
关于
DNA
序列分类问题的模型
冯 涛, 康
吉吉
雯, 韩小军
指导老师: 贺明峰
(
大连理工大学, 大连 116024
)
编者按: 本文以统计方法提取样本特征, 以之作为
BP
神经网络的输入, 用
MA TLAB
中相应算法进行训
练. 然后用于解决本分类问题, 得到了较准确的结果. 本文提取特征时考虑较为全面, 在此基础上正确地运
用了神经网络方法, 发挥了神经网络适用于非线性问题、具有自适应能力的优点. 思路清楚, 文字简练.
摘要: 本文提出了一种将人工神经元网络用于
DNA
分类的方法. 作者首先应用概率统计的方法对 20 个
已知类别的人工
DNA
序列进行特征提取, 形成
DNA
序列的特征向量, 并将之作为样本输入
BP
神经网络进
行学习. 作者应用了
MA TLAB
软件包中的
N euralN etwo rk Too lbox
(
神经网络工具箱
)
中的反向传播
(
Back
p ropagation BP
)
算法来训练神经网络. 在本文中, 作者构造了两个三层
BP
神经网络, 将提取的
DNA
特征向
量集作为样本分别输入这两个网络进行学习. 通过训练后, 将 20 个未分类的人工序列样本和 182 个自然序
列样本提取特征形成特征向量并输入两个网络进行分类. 结果表明: 本文中提出的分类方法能够以很高的
正确率和精度对
DNA
序列进行分类, 将人工神经元网络用于
DNA
序列分类是完全可行的.
1 问题重述
(
略
)
DNA
序列由四个碱基
A
、
T
、
C
、
G
按一定规律排列而成. 已知所给人工序列 1- 10 属
于
A
类, 11- 20 属于
B
类. 本题中, 我们的主要工作有两个:
1
)
提取
A
、
B
两类特征;
2
)
以所提取
A
、
B
两类特征为依据, 把 20 个人工序列及 182 个自然序列分为
A
、
B
两类
(
可能存在同时不具有
A
、
B
两类特征, 不能归为
A
、
B
中任一类的序列
)
.
在本题中, 先以序列 1- 20 为依据, 提取出
A
、
B
两类序列的统计特征, 然后运用神经网
络中的
BP
网络对未知序列进行了分类识别.
2 模型建立的理论依据
神经网络是近年来发展的一种大规模并行分布处理的非线性系统
[1 ]
, 其主要特点有:
1
)
能以任意精度逼近任意给定连续的非线性函数;
2
)
对复杂不确定问题具有自适应和自学习能力;
3
)
具有较强的容错能力和信息综合能力, 能同时处理定量和定性的信息, 能很好地协
调多种输入信息的关系.
传统的分类识别方法, 对于一般非线性系统的识别很困难, 而神经网络却为此提供了一
个强有力的工具. 它实质上是选择了一个适当的神经网络模型来逼近实际系统. 目前, 在
神经网络中应用最多的是
BP
网络.
对于具有
n
个输入节点,
m
个输出节点的
BP
网络, 输入到输出的关系可以看作是一个
n
维欧式空间到
m
维欧式空间的映射,
F
:
R
n
→
R
m
, 这一映射是高度非线性映射.
K
.
T
.
Funahashi
于 1989 年证明了这样的一个定理
[2 ]
: 如果
BP
网络隐层节点可以根据问题的不
同作相应的配置的话, 那么用三层的激励函数为双曲线正切型的
BP
网络, 可以以任意精度
逼近任意连续函数. 这一定理保证了
BP
网络在分类识别问题中的可用性.
将复杂系统看作是一个黑箱, 以实测输入, 输出数据为学习样本, 送入
BP
网络, 网络通
过样本进行学习, 在学习过程中, 网络的权值不断地修改
[3 ]
, 使输入到输出的映象逐渐与实
际对象的特性相逼近, 但网络输出的整体误差
E
小于给定的标准时, 整个网络便模拟出实
际系统的外部特性.
实际分类识别问题中, 输入空间一般是多维欧式空间, 我们可以计算空间中点与点的欧
式距离, 并根据这些距离知道哪些样本互相靠得近, 哪些样本相距甚远, 也就是说在输入空
间中存在着一个距离度量, 只要输入模式接近于某个输出模式, 由于
BP
网络所具有的联想
记忆能力, 则网络的输出亦会接近学习样本的输出.
3 模型的基本假设
1
)
假设碱基序列的特征值包括以下两个内容:
(
1
)
单个碱基在序列中的数量特征, 即
A
,
T
,
C
,
G
四种碱基在序列中的含量;
(
2
)
特征碱基串在序列中的数量特征
(
包括双字符碱
基串和三字符碱基串
)
.
2
)
由于给定的已知碱基序列是从
DNA
全序列中随机截取出来的, 因此无法确定序列
的起始位, 无法从序列中辨认出氨基酸. 假设在对
DNA
序列分类时, 是从碱基层次上进行
分类, 而不是从氨基酸层次上分类.
4 模型的建立与求解
4. 1 提取
A
、
B
两类的特征
经过计算, 我们提取出
A
、
B
两类的统计特征
(
a
)
和
(
b
)
, 具体方法如下:
特征
(
a
)
: 单个字符出现的频率. 特征
(
a
)
对应基本假设 1 中的第 1 条
对 1- 20 每个人工序列, 我们统计出单个字符
A
、
T
、
C
、
G
出现的频率
Pi
,
Pi
=
T i
g
(
S
—
M
+ 1
)
,
i
=
A
,
T
,
C
,
G
S
为序列长度,
M
为字符长度
(
这里,
M
= 1
)
,
T i
为每个序列中
i
出现的次数.
序列 1- 20 特征
(
a
)
的数值如下:
(
略
)
特征
(
b
)
: 特征字符串出现的频率. 特征
(
b
)
对应基本假设 1 中的第 2 条
通过对序列 1- 20 种
A
、
T
、
C
、
G
四字母的不同组合
(
如两两组合, 三三组合, 四四组合
)
出现频率的分析, 可以知道: 对于双字符串和三字符串, 均出现了数种多次出现较有规律的
组合形式, 而对于四四组合及更长的组合, 字符串重复出现的频率小, 分散度大, 未得出较有
规律的组合方式. 我们认为: 充分统计并分析序列 1- 20 种双字符串及三字符串出现的规
律已能较为全面地认识序列中的局部相关性及
A
、
B
两类的特征差异. 因此, 只对序列 1-
20 种的双、三字符串进行统计分析, 找出特征双字符串, 特征三字符串.
72
1 期 冯 涛等: 关于
DNA
序列分类问题的模型
剩余6页未读,继续阅读
资源评论
Nicy3182
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功