大数据详细项目简历:
离线项目:于用户行为标签的智能气象服务系统
个人职责:
1.运用Flume采集源数据,存放于Kafka消息队列中
2.采用Kstream框架对数据进行初步数据清洗与变换,使用Java API将数据导入HBase
3.使用Hive集成Hbase,对数据进行ETL,进一步清洗处理数据
4.协助使用Hive提取特征值,运用Spark ML构建模型
5.参与模型检验与随机森林算法调优
6.参与编写脚本文件将数据导出到MySQL中,运用Tableau工具进行可视化分析
参与编写部分Oozie任务调度脚本,实现工作流的自动化调控
实时项目:实时气象数据展示大屏搭建
个人职责:
1.与客户对接,确定大屏上需要展现的指标,指标计算的逻辑,对应的数据源情况,数据更新的频率要求等。
2.根据具体需求,运用Flume进行实时采集日志信息,存储到kafka消息队列中
3.使用Spark Streaming对数据进行清洗、加工、处理,形成最终要展示的指标,存入MySQL,提供给前端开发。
4.研究数据结果,剖析有效信息,提出指导性意见与结论(书面、口头等)。
辅助安装小型气象站与自动化监测系统,现场布置传感器与其他设备布点。