Java 大作业分析设计文档
选题:第三题
题意为:从文件、网络或者数据库中读取数据(格式自定、数据自定),显示统计结果(包
括图形两种以上),用户界面自定
分工情况:独立完成,从选区数据到 HDFS 存入或者读取数据,再到统计数据,两种方式
显示数据,再到编译运行,调试 X11 显示,均为独立完成。
1.读取数据
1.1 准备数据
此数据为 TPCH 基准测试集中 lineitem.tdl 文件中前 25 行
示例:第一行如下
1|1552|93|1|17|24710.35|0.04|0.02|N|O|1996-03-13|1996-02-12|1996-03-22|DELIVER IN
PERSON|TRUCK|egular courts above the|
其中有 15 列,分别以“|”隔开
- 第 0 列:1
- 第 1 列:1552
- 第 2 列:93
- 第 n 列:…
全部数据截图如下:
1.2 将数据存入 HDFS:
文件系统:HDFS 全名为 hadoop Distributed File System,是 google File system 的
开源实现,是一种基于 java 的应用层文件系统,与 hadoop 捆绑在一起。HDFS 设计成能
可靠地在集群中大量机器之间存储大量的文件,它以块序列的形式存储文件。
在 hadoop 集群开启的情况下,使用以下命令将数据存储在 hadoop hdfs 文件系统的