藏经阁-生命密码-基因数据的EMR实践
本文主要介绍了基于阿里云的基因数据EMR实践,聚焦于生命密码-基因数据的EMR实践,介绍了基因数据的发展趋势、EMR的应用实践、成果与展望。
基因数据的发展趋势
随着基因检测技术的发展,基因数据的规模正在快速增长。根据统计,一个人的基因数据规模可以达到100G,从芯片实验数据、芯片测序结果、芯片扩展数据到全基因组测序数据,基因数据的规模不断增长。
EMR的应用实践
传统的基因数据生产和分析方式存在许多问题,如单节点存储和计算、稀疏、简单的需求、“个性化”流程和“手工化”操作等。这些问题导致了数据生产速度受限、无法承载复杂分析、容错性低、流程不统一、人工成本高、问题不可追溯等问题。
为了解决这些问题,我们开始使用开源大数据组件Weave Networks,采用开源大数据技术处理基因数据。通过使用开源大数据技术,我们可以实现数据生产速度的提升、流程标准化、自动化、可扩展化、支持复杂数据分析等。
EMR的应用实践还包括使用阿里云产品,实现灵活性高、支持Hadoop生态圈、成本低廉、可靠性强、安全性高等。
成果与展望
通过使用开源大数据技术和阿里云产品,我们实现了基因数据的快速生产和分析。我们的成果包括:
* 数据周产能从<100份提升到数千份
* 流程标准化、自动化、可扩展化
* 支持复杂数据分析
* 单位计算成本高
* 可用性低
* 分析口径不统一
* 权限控制弱
在未来,我们计划继续使用开源大数据技术和阿里云产品,实现基因数据的快速生产和分析,提高基因数据的价值。
微基因生产系统
微基因生产系统是基于阿里云的基因数据生产系统,实现了基因数据的快速生产和分析。我们的微基因生产系统包括:
* 微基因ETL管理系统
* 微基因数据分析系统
* 微基因数据可视化工具
微基因ETL管理系统实现了数据上传确认、生产分配计算资源、数据生产与指控确认、交付/处理异常等功能。
微基因数据分析系统实现了基因数据的快速分析和可视化,包括Hue、SuperSet、第三方应用等。
微基因数据可视化工具实现了基因数据的可视化,包括数据分析、数据挖掘等功能。
本文介绍了基于阿里云的基因数据EMR实践,聚焦于生命密码-基因数据的EMR实践,介绍了基因数据的发展趋势、EMR的应用实践、成果与展望。