Hadoop与HBase自学笔记 1、 安装jdk 2、 安装Cygwin以及相关服务 2.1 安装Cygwin 2.2 配置环境变量 2.3 安装sshd服务 2.4 启动sshd服务 2.5 配置ssh登录 3、安装hadoop 3.1 修改hadoop-env.sh 3.2 修改core-site.xml 3.3 修改hdfs-site.xml 3.4修改mapred-site.xml 3.5 启动hadoop 4、安装HBase 4.1 HBase介绍 4.2 下载与配置HBase 4.2.2 修改hbase-site.xml文件 4.3 Cygwin终端设置 4.4 启动hbase 4.5 进入shell 4.6 建表与插数据 5、HBase数据库 5.1 数据类型 5.2 HBase语法教程 6、eclipse下开发hbase 7、集群下开发HBase ### Hadoop与HBase自学笔记知识点总结 #### 一、Hadoop与HBase简介 - **Hadoop**:是一款能够对大量数据进行分布式处理的软件框架。它通过提供高可靠性和高扩展性的分布式计算能力,使得用户能够在廉价的硬件设备上处理海量数据。 - **HBase**:是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用 GFS(Google 文件系统)作为其文件存储系统一样,HBase 在 Hadoop 之上提供了类似的面向列的大规模表的功能。 #### 二、Hadoop安装配置 1. **安装JDK** - JDK版本:1.6.0_12。 - **注意**:Hadoop要求安装特定版本的JDK,以确保兼容性。 2. **安装Cygwin及其服务** 1. **安装Cygwin** - Cygwin是在Windows平台上运行的Unix模拟环境。 - **下载与安装**:首先从官方网站下载安装程序setup.exe,然后按照步骤进行安装。 - 选择安装源:推荐选择`install from internet`。 - 设置安装路径:自定义安装路径。 - 选择安装源镜像:可以选择多个镜像以提高下载速度。 - 选择安装包:至少安装`Net Category`下的`OpenSSL`和`Base Category`下的`sed`等工具。 - 开始安装:点击完成开始安装。 2. **配置环境变量** - **JAVA_HOME**: 指向JRE安装目录。 - **PATH**: 包含Cygwin的bin目录和usr\sbin目录。 - **示例**:`C:\cygwin\bin;C:\cygwin\usr\sbin` 3. **安装sshd服务** - 使用`ssh-host-config`命令进行安装,并根据提示选择相应的选项。 - 如果出现启动失败的情况,可以在`C:/cygwin/etc/passwd`文件中添加sshd服务的用户信息。 4. **启动sshd服务** - 在Windows服务管理器中启动sshd服务,服务名称为`CYGWINsshd`。 - **故障排查**:如果启动失败,检查`C:/cygwin/etc/passwd`文件是否正确配置。 5. **配置ssh登录** - 使用`ssh-keygen`生成密钥文件。 - 将公钥添加到`authorized_keys`文件中。 - 测试ssh登录是否成功。 3. **安装Hadoop** - **下载与解压**:从官方源下载Hadoop安装包并解压至指定目录。 - **配置文件修改**: - `hadoop-env.sh`: 设置Java环境。 - `core-site.xml`: 配置HDFS的路径等。 - `hdfs-site.xml`: 配置HDFS副本数量等。 - `mapred-site.xml`: 配置MapReduce相关的参数。 - **启动Hadoop**:使用脚本启动Hadoop服务。 #### 三、HBase安装配置 1. **HBase介绍** - HBase是一种分布式、可伸缩、支持海量数据存储的非关系型数据库。 - 它基于Hadoop文件系统(HDFS)构建,并利用MapReduce来处理HBase中的大规模数据集。 2. **下载与配置HBase** - **下载**:从官网或其他可信源下载HBase安装包。 - **配置文件修改**: - `hbase-site.xml`: 配置HBase与HDFS的交互、RegionServer等。 - **Cygwin终端设置**:确保Cygwin环境正确配置,以便能够顺利运行HBase的相关命令。 3. **启动HBase** - 使用HBase提供的脚本启动服务。 4. **使用HBase Shell** - **进入Shell**:使用`hbase shell`命令进入HBase命令行界面。 - **建表与插入数据**: - **创建表**:使用`create`命令创建表。 - **插入数据**:使用`put`命令插入数据。 #### 四、HBase数据库 1. **数据类型** - HBase支持多种数据类型,但主要通过字节数组的形式存储数据。 - 常见的数据类型包括字符串、整数、浮点数等。 2. **HBase语法教程** - **DDL**(Data Definition Language):用于定义表结构,如创建表、删除表等。 - **DML**(Data Manipulation Language):用于数据的增删改查操作。 - **HBase命令行工具**:提供了丰富的命令来操作HBase表。 #### 五、Eclipse下开发HBase - **安装HBase插件**:使用Eclipse Marketplace安装HBase相关的插件,以简化HBase的开发过程。 - **项目配置**:在Eclipse中配置HBase SDK和其他必要的依赖库。 #### 六、集群下开发HBase - **集群部署**:HBase可以部署在单机模式或集群模式下。 - **开发流程**:在集群环境中开发HBase应用,需要注意集群资源的分配和任务调度。 #### 总结 Hadoop与HBase是大数据领域的重要技术组件,通过上述步骤可以实现Hadoop和HBase的基本安装配置,并进一步了解如何使用它们进行大数据处理。对于初学者来说,掌握这些基础知识是非常重要的,可以帮助更好地理解和应用Hadoop和HBase技术。
- loveninabenagui2013-04-05thanks,正在学习HBase相关的东西。
- kun200310292013-01-28还可以,适合初学者
- 不知道为啥2012-11-22非常好!详细!
- 粉丝: 20
- 资源: 20
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助