没有合适的资源?快使用搜索试试~ 我知道了~
很全
资源推荐
资源详情
资源评论
备注:统一学校讲的内容
项目一
项目名称:基于大数据电商数据分析平台(自己一定要改)
涉及技术:
hdfs、zookeeper、hive、yarn、datax、shell、mysql
大数据数据分析平台项目内容:
1、编写初始化服务器脚本,使用 ansible 完成初始化集群
2、选择 apache hadoop,安装部署 HDFS 集群,完成分布式存储平台的搭建
3、部署安装 zookeeper 软件、启动 journalnode 服务,实现 namenode 高可用
4、编写自动化采集数据脚本至 hdfs 中
5、搭建部署数据仓库工具 hive 工具,实现数据的分析查询
6、部署 datax 数据采集工具,能够实现从传统型数据库中自动化采集数据到分布式存储平台
7、编写相关脚本实现对大数据集群进行自动化运维,如集群分发、执行、启动等脚本等
面试题:
1 什么是大数据平台?都有哪些组件?
大数据平台是一种通过内容共享,资源共用,渠道共建和数据共通等形式进行服务的网络平台;
组件包括 Hadoop(基础组件,许多分布式存储和数据处理组件都建立在它的基础上),hdfs(分
布式文件系统),yarn(运行调度系统),MapReduce(分布式编程运算框架),hive(基于大数据技
术文件系统+计算框架的 sql 数据仓库工具),Hbase(分布式海量数据库)
Zookeeper(分布式应用程序协调服务:配置维护,域名服务,分布式同步,组服务等)
Datax 是一个异构数据源离线同步工具
2 免密登录的原理?
ssh 为 Secure Shell(安全外壳协议),为建立在应用层基础上的安全协议。是一种安全性高的网络传输
协议。现存加密方式:对称加密,非对称加密;
客户端要想免密连接服务器
1)客户端生成两个文件,一个公钥文件(id_rsa.pub),一个私钥文件(id.rsa)
2)客户端只需要将自己的公钥文件的内容(id_rsa.pub)交给服务器并放到服务器中的
~/.ssh/authorized_keys 保存即可
3)客户端免密连接服务器
4 你是怎么搭建的这个集群?
1. 首先,初始化服务器(安装 jdk,永久关闭防火墙,禁用 selinux,时间同步,设置最大文件打开数)
~/.bash_profile---用户环境变量 /etc/profile---系统环境变量
Selinux 包含三种模式:强制模式,宽容模式,关闭 selinux---修改配置文件改为 disable
selinux 是一个 linux 内核模块,安全子系统;最大限度的减小系统中服务进程可访问的资源
2. 配置三台服务器之间的免密登录
删除原本的~/.ssh 在创建空文件夹 ssh-keygen -t rsa 生成公钥与私钥
将生成的公钥放到公钥库中,并将公钥库分发到所有虚拟机上
3. mysql 主从复制
Master 主库需要开启 binlog 日志》将操作记录到 binlog 日志中
Slave 从库开启 I/Othread 线程读取 binlog 日志中的内容》读取内容到 relay_log(中继日志)
Slave 从库开启 sql thread,读取中继日志的内容并在从库中执行,保持主从数据一致
Create user ‘reproduce’@’%’ identified by ‘123456’;
Grant replication slave on *.* to ‘reproduce’@’%’ identified by ‘123456’;
Flush privileges;
4. hdfs 集群部署: 其中 hdfs-ha 就是 hdfs 的高可用模式
Hdfs 元数据,按类型分主要包括:
资源评论
水煮麻辣烫
- 粉丝: 4
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功