没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![gz](https://img-home.csdnimg.cn/images/20210720083447.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/10163282/bg1.jpg)
2016 年“华为杯”第十三届全国研究生数
学建模竞赛
学校
参赛队号 10635001
队员姓名
1.
2.
3.
![](https://csdnimg.cn/release/download_crawler_static/10163282/bg2.jpg)
题目 具有遗传性疾病和性状的遗传位点
分析
摘要
遗传性疾病和性状的相关联位点分析对人类研究遗传学具有重要意义。目
前许多疾病或性状均有典型的多基因遗传特性,即具有众多基因共同控制,且
单个基因的作用较小的特点,非常适用于全基因组关联性分析(GWAS)的研
究 。 本 文 通 过 建 立 卷 积 神 经 网 络 模 型 ( Convolutional Neural
Network,CNN),对相应的数据进行分析和统计,完成了对遗传疾病、性状
与其相关联位点的分析。我们通过训练该网络模型,实现了在许多位点中寻找
与相应疾病或性状有关的位点。
对于问题一,要求根据合适的方法,把 1000 个样本在染色体片段上所有
的位点信息转换为数值编码方式。本文考虑到数值编码不仅要体现碱基的生物
特性,同时要考虑到后续的数据存储、运行和统计分析。因此,我们的编码方
式是 C 对应(01)、T 对应(11)、A 对应(00)、G 对应(10)。
对于问题二,要找到某种疾病最有可能的一个或几个致病位点。本文的解
决方法是采用卷积神经网络建立模型。首先把每个样本的位点信息转换为数字
编码信息进而转变为位点编码图。通过建立卷积神经网络模型,之后采用反卷
积的方式,建立每个样本的特征图。本文通过对 1000 个特征图累加并进行统
计分析,最终选取了 15 个位点。在模型验证中,本文选取常用的分类器进行
分类,包括线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)、
朴素贝叶斯分离器(NBC)和 Adaboost 分类。对得到的 15 个特征位点进行
分类,其结果均在 80%以上,证明了本模型选取的 15 个位点的有效性以及合
理性。
对于问题三,基因是若干个位点组成的集合,并且每个基因包含的位点数
目不同。在问题二的基础上,如果当某个基因包含的位点集合中的一个或几个
位点属于我们已经找到的致病位点集合,那么我们认为该基因与疾病相关。按
照这种方式,我们找到了与疾病相关的 9 个基因。
对于问题四,在问题二的基础上,本文通过对 10 种性状分别建立卷积神
经网络模型。沿用解决问题二的方法,最终找到了对应这 10 种性状的位点。
关键词:全基因组关联性分析(GWAS) 致病位点 卷积神经网络
1
![](https://csdnimg.cn/release/download_crawler_static/10163282/bg3.jpg)
一、问题重述
1.1 问题背景
人体的每条染色体携带一个 DNA 分子,人的遗传密码有人体中的 DNA 携
带。DNA 是由分别带有 A,T,C,G 四种碱基的脱氧核苷酸链组成的双螺旋长链分
子。在这条双螺旋的长链中,共有约 30 亿个碱基对,而基因则是 DNA 长链中
有遗传效应的一些片段。在组成 DNA 的数量浩瀚的碱基对(或对于的脱氧核苷
酸)中,有一些特定位置的单个核苷酸经常发生变异引起 DNA 的多态性,我们
称之为位点。
在 DNA 长链中,位点个数约为碱基对个数的 1/1000。由于位点在 DNA
长链中出现频繁,多态性丰富,近年来成为人们研究 DNA 遗传信息的重要载体,
被称为人类研究遗传学的第三类遗传标记。
大量研究表明,人体的许多表型性状差异以及对药物和疾病的易感性等都
可能与某些位点相关联,或和包含有多个位点的基因相关联。因此,定位与性
状或疾病相关联的位点在染色体或基因中的位置,能帮助研究人员了解性状和
一些疾病的遗传机理,也能使人们对致病位点加以干预,防止一些遗传病的发
生。
近年来,研究人员大都采用全基因组的方法来确定致病位点或致病基因,
具体做法是:招募大量志愿者(样本),包括具有某种遗传病的人和健康的人。
对每个样本,采用碱基(A,T,C,G)的编码方式来获取每个位点的信息(因为染色
体具有双螺旋结构,所以用两个碱基的组合表示一个位点的信息);研究人员
可以通过对样本的健康状况和位点编码的对比分析来确定致病位点,从而发现
遗传病或性状的遗传机理。
1.2 需要解决的问题
问题一:采用适当的方法,在 1000 个样本在某条染色体片段上所有的位
点信息中,每个位点的碱基(A,T,C,G)编码方式转化成数值编码方式。
问题二:设计或采用一个方法,找出某种疾病最有可能的一个或几个治病
位点,并给出相关的理论依据。
问题三:现在有 300 个基因,每个基因所包含的位点已知,由于可以把基
因理解为若干个位点组成的集合,遗传疾病与基因的关联性可以由基因中包含
的位点的全集或其子集合表现出来请找出与疾病最有可能相关的一个或几个基
因,并说明理由。
问题四:在问题二的基础上,已知 9445 个位点和其编码的信息。在实际
2
![](https://csdnimg.cn/release/download_crawler_static/10163282/bg4.jpg)
的研究中,科研人员往往把相关的性状或疾病看成一个整体,然后来探寻与它
们相关的位点或基因。根据题目给出 1000 个样本的 10 个相关性状的信息及
其 9445 个位点的编码信息,找出 10 个性状相关联的位点。
二、模型假设
(1)假设题中所给信息及数据均正确。
(2)假设每个位点的信息不会受到其它疾病或性状的影响。
(3)假设问题中所提到的性状或疾病只与 9445 个位点有关。
(4)假设问题中所提到的疾病只与 300 个基因有关,与其他基因无关。
(5)假设转换为位点编码图时,对图像的填充不会对提取特征产生影响。
(6)假设疾病不会受多个位点特殊排列组合的影响。
3
![](https://csdnimg.cn/release/download_crawler_static/10163282/bg5.jpg)
三、符号说明
4
剩余27页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
- weixin_377638752018-08-23非常有用谢谢
![avatar](https://profile-avatar.csdnimg.cn/386d4525af8947d78ced8dd4fcc70c1b_qq_30580823.jpg!1)
战无不胜1111
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)