没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
22页
基于Hadoop部署实践对网站日志分析 1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 Hadoop插件安装及部署 第一步:Hadoop环境部署和源数据准备 安装好VMware(查看) 第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将分析数据导入mysql 3. 详细实现步骤操作纪要 3.1 hadoop环境准备 首先开启Hadoop集群:start-all.sh:开启所有的Hadoop所有进程,在主节点上进行 NameNode它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。 Secondary NameNode.....
资源推荐
资源详情
资源评论
《Hadoop 部署实践》
课程设计报告
基于 部署实践对网站日志分析
项目概述
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训
机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们
通过 网络爬虫手段进行数据抓取,将我们网站数据(
)保存为两个日志文件,由于文件大小超出我们一
般的分析工具处理的范围,故借助 来完成本次的实践。
总体设计
插件安装及部署
第一步:Hadoop 环境部署和源数据准备
安装好 (查看)
第二步:使用 python 开发的 mapper reducer 进行数据处理。
第三步:创建 hive 数据库,将处理的数据导入 hive 数据库
第四步:将分析数据导入 mysql
3. 详细实现步骤操作纪要
3.1 hadoop 环境准备
-
首先开启 集群::开启所有的 所有进程,在主节点
上进行
NameNode 它是 Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。
SecondaryNameNode 是一个用来监控 HDFS 状态的辅助后台程序。
DataNode 它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运
行一个 datanode 守护进程。
NodeManager:
1、是 YARN 中每个节点上的代理,它管理 Hadoop 集群中单个计算节点
2、包括与 ResourceManger 保持通信,监督 Container 的生命周期管理,
3、监控每个 Container 的资源使用(内存、CPU 等)情况,追踪节点健
4、康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)
ResourceManager:在 YARN 中,ResourceManager 负责集群中所有资源的统一管理和分配,它接
收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用
程 序 ( 实 际 上 是 ApplicationManager ) RM 与 每 个 节 点 的 NodeManagers (NMs) 和 每 个 应 用 的
ApplicationMasters (AMs)一起工作。
- hive
Show databases;展示数据库的名称
-
-
3.2 源数据文件准备
- 下载日志文件
- 将文件拷贝到 hadoopvm 虚拟机
记住虚拟机上本地路径如:/home/hadoop/logles/
sudo nd / -name hadoop-stream*(找到 Hadoop 文件路径)
将 Python 脚本里面的参数和路径替换,刚刚找到的替换第一行
在 hdfs 里面新建我们的文件夹:logles,然后把我们的日志文件放入里
面
- 将文件使用 hdfs 命令上传到 HDFS
先创建 hdfs 路径:
参数解释:创建文件时候 创建多级目录,父目录存在不报错,
依旧在此目录创建没有的子目录
hdfs dfs -mkdir -p /user/hadoop/logles
再上传文件到 hdfs
参数解释:
! 命令把本地的文件上传到 " 里面,命令为 !本地路径 " 路
剩余21页未读,继续阅读
王小王-123
- 粉丝: 6w+
- 资源: 106
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页