使用 python 实现将给定的 DNA 序列
转换为其蛋白质等价物
DNA ⇒ RNA ⇒ 蛋白质
生命取决于细胞存储、检索和翻译遗传指令的能力。这些指令是制造和维持活生
物体所必需的。很长一段时间,都不清楚哪些分子能够复制和传递遗传信息。我
们现在知道,该信息由所有生物体内的脱氧核糖核酸或 DNA 携带。
脱氧核糖核酸:DNA 是一种离散代码,物理上几乎存在于生物体的每个细胞中。
我们可以将 DNA 视为具有四个字符可供选择的一维字符串。这些字符是 A、C、G
和 T。它们代表用于构建 DNA 的四个核苷酸的第一个字母。这些核苷酸的全名是
腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。每个独特的三字符核苷酸序列,有时称为
核苷酸三联体,对应于一个氨基酸。每种蛋白质的氨基酸序列都是独一无二的,
所有蛋白质都是由所有生物的同一组仅 20 种氨基酸构成的。
DNA 中的指令首先被转录成 RNA,然后 RNA 被翻译成蛋白质。我们可以把 DNA 看
成是三个字母的序列,就像一部生命词典。
目的:将给定的 DNA 序列转换为其蛋白质等价物。
来源:从 NCBI 的基于网络的公共 DNA 序列存储库下载文本文件形式的 DNA 链。
核苷酸样本是 (NM_207618.2)
步骤:将 DNA 序列转换为氨基酸序列所需的步骤是:
1. 将 DNA 序列翻译成氨基酸序列的代码,其中每个氨基酸是
由一个独特的字母表示。2. 从 NCBI
下载氨基酸序列以检查我们的解决方案。
编码翻译
第一步是将原始未更改的 DNA 序列文本文件放入工作路径目录。检查 Python
shell 中的工作路径目录,
>>>pwd
接下来,我们需要用 Python 打开文件并读取它。默认情况下,文本文件包含一
些未格式化的隐藏字符。这些隐藏的字符,如“/n”或“/r”需要格式化和删除。
如“/n”或“/r”需要格式化和删除。所以我们使用 replace() 函数并从文件中
读取 DNA_sequence_original.txt