任务 2.2 Hive 输入与输出
任务概述
本任务读取 csv 文件数据,并数据存储到大数据平台 HIVE 数据库中。文本
输入节点实现 csv 文件上传到平台,Hive 输出节点通过 hive 数据源将数据写入
大数据平台的 hive 数据库。
本任务中的数据集来源自某台风力电机 10min 间隔 SCADA 真实运行数据,主
要有 4 个维度信息分别为时间戳(Time)、风速(WindSpeed)、功率(Power)和
风轮转速(RotorSpeed),包含 3426 条数据。
通过本任务的学习:
(1)能够实现 HIVE 数据源的搭建;
(2)能够实现读 csv 数据,并写入 HIVE 数据库。
任务实现
2.2.1 新建 hive 数据源
步骤 1:选择算法建模工具中数据管理模块,使用关系数据中创建数据源功
能创建 hive 数据源。图 2-2-1 为选择创建 hive 数据源的功能界面。
图 2-2-1 创建 hive 数据源
步骤 2:打开图 2-2-1 中的“创建数据源”的配置界面,输入数据源名称
“hive 数据源”,在类型中选择“hive”。配置 URL 地址,IP 为数据源的服务器
地 址 , 如 10.10.74.134 , hive 数 据 库 默 认 端 口 为 10000 , 数 据 库 名