Hadoop-HDFS-Shell-学习资料及文档、Java代码资源-CSDN文库

共48个文件

png：18个

class：7个

java：7个

版权申诉

hadoop

hdfs

课程资源

java

47 浏览量 2023-10-01 19:51:35 上传评论收藏 1.05MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Hadoop-HDFS-Shell-学习资料及文档、Java代码.zip （48个子文件）

Hadoop-HDFS-Shell-Java学习资料及文档、代码

HadoopHDFS-JavaRPC操作代码

weekend110--rpcserver

.classpath 369B

.settings

org.eclipse.jdt.core.prefs 658B

src

core-site.xml 967B

itcast

hadoop

rpc

Starter.java 673B

LoginServiceImpl.java 222B

LoginServiceInterface.java 172B

hdfs

HdfsUtil.java 765B

hdfs-site.xml 843B

bin

core-site.xml 967B

itcast

hadoop

rpc

LoginServiceImpl.class 858B

LoginServiceInterface.class 276B

Starter.class 1KB

hdfs

HdfsUtil.class 1KB

hdfs-site.xml 843B

.project 369B

weekend110

.classpath 378B

.settings

org.eclipse.jdt.core.prefs 598B

src

itcast

hadoop

rpc

LoginController.java 496B

LoginServiceInterface.java 172B

hdfs

HdfsUtil.java 4KB

bin

itcast

hadoop

rpc

LoginController.class 1KB

LoginServiceInterface.class 276B

hdfs

HdfsUtil.class 5KB

.project 386B

复安装过程详细步骤.txt 3KB

架构、流程、机制、原理、环境、数据同步、免密登录等

hdfs架构思想分析原理.png 80KB

fsget流程.png 54KB

hdfs下载数据源码流程.png 23KB

hadoop-rpc架构.jpg 25KB

hdfs及namenode元数据管理机制细节.png 189KB

局域网网络搭建.png 79KB

getfs流程.png 249KB

源码分析之获取hdfs文件系统实例流程----version weekend110.png 146KB

open流程2.png 60KB

job提交.png 48KB

数据同步过程.png 47KB

rpc.png 63KB

hadoop中的RPC框架封装思想.png 172KB

服务调用动态转发和负载均衡的实现思考.png 116KB

open流程.png 144KB

hdfs实现机制.png 153KB

hadoop安装步骤大纲.png 48KB

源码流程getfs.png 63KB

ssh无密登陆机制.png 126KB

分布式文件系统.txt 5KB

hadoop2.4.1伪分布式搭建.txt 4KB

hadoop生态现状、介绍、部署.txt 6KB

hdfs笔记.txt 702B

一、引出hadoop 1、hadoop的高薪现状各招聘平台都有许多hadoop高薪职位，可以看看职位所需求的技能 ----> hadoop是什么，为什么会这么高薪？引出大数据，大数据时代，大数据与云计算 2、大数据时代的介绍大数据的故事，google根据海量数据所作出的一次流行病传播趋势预测，及时性和准确性都远超医疗体系根据传统方法所作出的预警，渲染大数据技术将给这个时代带来的巨大变革 ----> 大数据的4V特征 ----> 大数据技术带来的更多成功案例，及基于大数据技术的机器学习带来的无限憧憬 3、hadoop的由来和发展历程 ----> google所面临的困境 ----> 需求催生的技术革新 ----> 论文公布 ----> dougcutting 山寨（捎带介绍一下道哥及其成就） ----> lucene nutch hadoop等项目的发起人 ----> yahoo ----> apache基金会管理维护介绍apache基金会旗下的hadoop生态体系中各种开源项目，如hive hbase flume spark storm sqoop oozie ...... 4、hadoop解决了什么问题实际场景，海量日志如何处理，海量网页数据如何处理 hdfs 解决了海量数据的分布式存储，高可靠，易扩展，高吞吐量 mapreduce 解决了海量数据的分析处理，通用性强，易开发，健壮性 5、hadoop的发展现况大数据领域的标准开源解决方案，各大主流厂商都围绕hadoop进行周边开发和服务提供，去IOE化重点以淘宝为例：集群用途，个数，规模，云梯的架构中国移动所使用的hadoop集群及其用途，各大厂商在使用hadoop 6、hadoop生态系统 ----> 最底层平台 hdfs yarn mapreduce spark ----> 应用层 hbase hive pig sparkSQL nutch ----> 工具类 zookeeper flume 二、hadoop介绍 1、如何学习hadoop 学什么？分轻重缓急，首先是整体技术架构，然后是应用场景，然后是开发规范，有余力可以深入原理--如源码）怎样学？注意比较跟学习J2EE的差别难不难？给以信心，强调要多动手，因为hadoop领域技术点多，不像j2ee那么单纯，在动手的过程中会遇到各种各样的问题，这样一能加深理解，二能提高学习和思考分析的能力，三能积累问题解决经验 2、hadoop的设计思想单机性能纵向扩展的瓶颈，传统分布式存储入NFS所面临的单节点故障，磁盘冗余阵列所带来的成本问题 ----> 需要通过集群协作来解决：水平扩展，集群化处理，低成本，可扩展，高可靠 ----> 集群协作随之而来的系统复杂度，急需一个通用的平台封装底层复杂度，降低使用开发难度 hdfs设计思想介绍 ----主从结构，主节点namenode，从节点datanode ，简单介绍其角色责任，节点数量用仓库管理系统的比喻方式来介绍一遍hdfs的设计思想： ---->管理员，仓库的角色 ---->可靠性的考虑 ---->吞吐量的考虑 ---->存储和读取的流程 mapreduce设计思想介绍 ----主从结构，主节点jobtracker，从节点 tasktracker，整个框架如何将任务并发化，如何实现容错 ---->用一个海量求和的案例来说明运算的并发化思想： a、用一个线程一次性全量求和 b、将整个求和任务分成两个步骤，第一个步骤局部求和，这样可以并发进行；第二个步骤必须全局处理，用一个线程来执行，但是它的输入数据集已经很小，不会成为瓶颈 ---->并发思想的编程模型实现了，但是并发协作的机制产生了大量公共管理问题，引出mapreduce的资源管理，任务调度，错误重试，并从这里可以引出hadoop2.0的yarn的思想及与hadoop1.0的对比三、hadoop的部署----（细节在《hadoop2.4.1伪分布式搭建.txt》中） 1、linux系统的安装、配置（这部分都是实际操作演示）根据以往经验，学员对于虚拟机软件特别是虚拟网络环境很困惑，这里需要详细讲一下虚拟机的思想可先讲实际环境，要物理机，要交换机，要网络配置那么，在虚拟环境下，同样需要具备这些要素，缺一不可，只是机器，交换机需要用虚拟的方式产生的而已；然后详细讲一下交换机和网关的概念，引出nat和bridge桥接方式的思想和差别准备工作：vmware虚拟机软件，centos6.5的安装，虚拟机软件的vmnet配置，nat方式或者桥接方式 a、网络配置----> 主机名，ip地址，域名映射先用ifconfig查看目前的活跃网卡，然后修改网卡的ip地址配置 setup配置ip地址（简易图形界面）或者 vi /etc/sysconfig/networking/devices/ifcfg-eth0 配置文件来修改ip地址 IPADDR="" NETMASK="" GATEWAY="" 主机名和域名映射的配置： vi /etc/sysconfig/network 本机的主机名 vi /etc/hosts 集群中的主机域名映射表 ----> 检验配置是否生效 ping hostname观察网络配置是否生效 b、系统配置 ----> sudoers加入普通用户，以便于利用sudo指令、时间配置，启动级别配置，防火墙配置 service iptables stop 关闭防火墙服务 chkconfig iptables off关闭防火墙自启动 service iptables status检查防火墙关闭情况 chkconfig iptables --list 查看防火墙自启动情况 2、JDK的安装(细节在《hadoop2.4.1伪分布式搭建.txt》中) JDK安装包获取----> 安装包的上传 ----> 安装路径规划，安装包解压 ----> 环境变量的配置 secureCRT vsftp tar -zxvf vi /etc/profile export JAVA_HOME=/usr/java export PATH = $PATH:$JAVA_HOME/bin source /etc/profile 生效 3、安装hadoop(细节在《hadoop2.4.1伪分布式搭建.txt》中) hadoop版本的选择 hadoop-1.2.1 hadoop-2.2.0 hadoop-2.4.1 ----> 下载安装包 http://archive.apache.org/dist ----> 上传安装包到虚拟机安装路径规划 ----> 解压 ----> 目录结构简介伪分布式安装配置文件 vi hadoop-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_65 core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://itcast:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop-2.4.1/tmp</value> </property> hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> mapred-site.xml <property> <name>mapreduce.framwork.name</name> <value>yarn</value> </property> yarn-site.xml <property> <name>yarn.resourcemanager.hostname</name> <value>itcast</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> 配置/etc/profile export HADOOP_HOME = export PATH 4、启动hadoop 格式化 hdfs namenode -format start-all.sh 启动过程中会多次要求输入密码，引出后面会讲的SSH无密登陆配置 jps查看并介绍进程 namenode secondarynamenode datanode nodemanager resourcemanager web管理界面的使用和介绍四、ssh免密码登陆配置 1、ssh介绍，登陆演示（需要增加一台虚拟机） 2、ssh免密码登陆的秘钥机制 3、ssh秘钥配置，权限设置 ssh-keygen.sh -t rsa ~/.ssh 目录介绍 id_ras id_rsa.pub known_hosts ssh-copy-id desthost 或scp + cat >> 命令 4、验证 5、ssh免密码登陆的原理，握手及身份验证流程五、hadoop的可用性验证 1、hdfs验证通过网页访问hdfs hdfs shell 命令 hdfs dfsadmin -report查看hdfs集群状态 put get mv rm的演示 2、yarn验证跑hadoop自带例子程序 hadoop jar app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output

评论收藏

内容反馈

版权申诉