没有合适的资源?快使用搜索试试~ 我知道了~
大型机(HPC)构建 hadoop 强烈推荐
资源推荐
资源详情
资源评论
“基于高性能计算机群的基因数据库和海量数据挖掘功能开发”项目进展
1. 项目具体技术方案和技术路线
在我所 6 万亿次 HP 高性能计算机群基础上,使用最新的开源大数据技术建设基因组
数据库和进行数据挖掘。在高性能计算机群上添加一个 hadoop 的平台,首先使用本地硬盘
搭建 HDFS 文件系统,把新的 apache hadoop 软件平台(包括 Hbase, zookeper,hive)搭建在
这个文件系统上,用 nosql 数据库(拟采用 hbase)抽取基因组数据建库,同时在这个平台
上用 mysql 或者 oracle 标准版构建与 hbase 接口的后端数据库,针对一到两个物种建立基因
组数据库。
上述技术方案路线仿制 oracle、IBM 大数据机的结构,在现有高性能机群建设一个大
数据平台,移植一到两个 mapreduce 生物信息应用程序,建设基于 NoSql 数据库技术的基
因数据库。因为我们现有的高性能机群和 oracle 大数据机硬件上差别不大,所以主要是软
件平台的搭建,购置少量的本地硬盘用于 HDFS。
2. 目前已经完成的工作
1) 与某公司达成意向,合作建设大数据平台(目前处于合同细节商定、签署阶段)
2) 基因库于 3 月中旬到我所当面沟通交流合作事宜
3. 正在进行的工作
1) 大数据技术深入学习、培训阶段(hadoop、hbase)
2) HDFS 文件系统搭建阶段
3) 系统硬件购置工作
4) HBASE 安装建设工作
5) 与某公司合作合同洽谈中
4. 项目后续执行计划
1) 2013 年 9 月-10 月,完成项目软硬件购置工作、第一期大数据培训课程
2) 2013 年 10 月-11 月与某公司工程师陈威、刘凯完成大数据平台第一期建设,包括
HDFS、HBASE,相关系统调试工作
3) 2013 年 12 月-2014 春节前,完成大数据平台二期建设,包括该公司大数据软件组
件的建设、调试、培训
4) 2014 年 2 月-4 月,完成大数据平台的全部软硬件建设工作,与厂商合作完成一个
mapreduce 算法移植工作
5) 2014 年 4 月,赴基因库商谈数据库数据共享事宜
6) 2014 年 5 月-8 月,完成一个基因组 HBASE 数据库建设
7) 2014 年 7 月-10 月,大数据平台和 HBASE 数据库的应用软件开发移植
8) 2014 年 10 月-12 月,项目缓冲时间
资源评论
探索者v
- 粉丝: 890
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功