没有合适的资源?快使用搜索试试~ 我知道了~
计算机研究 -一种基于聚类的RCNA识别算法.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 61 浏览量
2022-07-04
13:22:02
上传
评论
收藏 2.06MB PDF 举报
温馨提示
试读
60页
计算机研究 -一种基于聚类的RCNA识别算法.pdf
资源推荐
资源详情
资源评论
万方数据
摘要
拷贝数变异 CNV(Copy Number Variation)是指 1kb 以上的 DNA 片段的增加
或者减少。CNV 是基因组结构变异的重要组成部分,是人类疾病的重要致病因素
之一。Recurrent CNA (RCNA)是与某种疾病有关的,存在于绝大多数样本相同染
色体区域的一段连续的拷贝数变异,它与肿瘤、癌症等疾病有着重要的关系,识
别 RCNA 对于疾病的研究有着重要的意义。目前已经有很多算法用于 RCNA 的
识别,这些算法各有优缺点,但仍然没有一个算法能够准确的识别出各种情形的
RCNA。CMDS 算法是一个有效查找 RCNA 的算法,它根据相邻两列数据的相关
性对数据进行打分,根据每一列的得分,判断出 RCNA 的位置。CMDS 算法计算
量小,效率较高,统计特性强,但是它不能识别出变异是增益还是缺失,对于变
异程度较敏感,容易受到一些随机变异的拷贝数的影响。
本文首先对拷贝数进行了数据仿真,对 CMDS 算法的优缺点进行了分析,提
出了一种基于聚类的 RCNA 识别算法。该算法首先对数据进行了预处理,接着运
用聚类算法对数据聚类,根据聚类的结果对每一列进行打分,最后根据得分判断
出 RCNA 的位置。本文还针对 CMDS 算法的不足进行了改进,称为 CMDS_s 算
法。在仿真数据上,针对各种情形的 RCNA 分别用 CMDS 算法、CMDS_s 算法
和本文算法进行了对比实验。实验结果表明,本文算法的性能优于 CMDS 算法,
也优于 CMDS_s 算法,但是在某些特殊情况下,CMDS_s 算法具有一定的优势。
关键字:拷贝数变异 RCNA 聚类
万方数据
万方数据
Abstract
Copy number variation (CNV) is the main type of structure variation caused by
genomic rearrangement, which mainly includes gain and lose, that is 1kb or larger
genomic segments. The mutation rate of CNV is much higher than of single nucleotide
polymorphism (SNP). CNV has been recognized as one of the main genetic factors
underlying human diseases. A recurrent CNA (RCNA) is a CNA that occurs in multiple
patients across the same chromosomal region. RCNA is often identified as more
significant events with greater implication in tumorigenesis. There are some methods
for identifying RCNA, but there is still no a method can accurately identify the various
situation of RCNA. Finding recurrent CNA regions remains a challenge. CMDS is an
efficient approach for RCNA detection, which scores for each column according to the
correlation, based on the score to find the position of RCNA. CMDS is statistically
powerful and computationally efficient, but it can’t identify the variation is gain or loss
and easily affected by some random copy number aberration.
In this article, we simulate data of copy number, analyze the advantages and
disadvantages of CMDS algorithm and propose a new method which is based on
clustering algorithms for identifying RCNA. The first step is data preprocessing, then
using the clustering algorithm to cluster data and score for each column by the result,
finally, based on the score to find the position of RCNA. This paper also improves the
CMDS algorithm, called CMDS_s. On the simulation data, compare the CMDS,
CMDS_s and the new algorithm through experiment. Experimental results show that
the new method is superior to CMDS and CMDS_s, but in some special cases,
CMDS_s algorithm has certain advantages.
Keyword: copy number RCNA clustering algorithm
万方数据
万方数据
剩余59页未读,继续阅读
资源评论
programyg
- 粉丝: 161
- 资源: 21万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功