在Ubuntu下安装HDFS的步骤如下:
系统初始化
- 安装网络工具包:
sudo apt install net-tools vim
- 关闭防火墙:
sudo ufw disable
- 分别在各节点设置主机名称:
hostnamectl set-hostname master
- 在所有节点编辑
/etc/hosts
文件,确保主机名与IP地址对应。 - 生成SSH密钥并分发到所有节点,实现无密码登录。
安装Java环境
- 下载并解压JDK安装包到指定目录,例如
/usr/local/java
。 - 启用Java环境变量,编辑
/etc/profile
文件,添加以下内容:export JAVA_HOME=/usr/local/java export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/sbin
- 使配置生效:
source /etc/profile
- 验证Java安装:
java -version
。
Hadoop分布式环境搭建
-
下载Hadoop
从Apache官方网站下载Hadoop安装包,例如:
wget http://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/hadoop-2.7.6.tar.gz
-
解压Hadoop安装包
tar -xzf hadoop-2.7.6.tar.gz -C /usr/local/ cd /usr/local/hadoop-2.7.6/etc/hadoop/
-
配置环境变量
-
编辑
hadoop-env.sh
文件,添加JDK路径:export JAVA_HOME=/usr/local/java
-
编辑
start-dfs.sh
和stop-dfs.sh
文件,添加HDFS的root执行权限:hdfs_datanode_user=roothdfs_namenode_user=roothdfs_secondarynamenode_user=root
-
编辑
start-yarn.sh
和stop-yarn.sh
文件,添加YARN的root执行权限:yarn_resourcemanager_user=rothyarn_nodemanager_user=root
-
-
配置配置文件
-
编辑
core-site.xml
文件:hadoop.tmp.dir file:/data/hadoop/hdfs/tmp fs.defaultfs hdfs://master:9000 -
编辑
hdfs-site.xml
文件:dfs.replication 1 dfs.namenode.name.dir file:/data/hadoop/hdfs/name dfs.datanode.data.dir file:/data/hadoop/hdfs/data -
复制
mapred-site.xml.template
为mapred-site.xml
,并编辑:mapreduce.framework.name yarn
-
-
启动HDFS
格式化NameNode:
bin/hdfs namenode -format
启动HDFS:
sbin/start-dfs.sh
-
验证安装
启动后,可以通过Web界面访问NameNode:
http://
:50070
请注意,以上步骤是基于Hadoop 2.7.6版本的指导,不同版本的Hadoop可能会有细微的配置差异。建议参考官方文档进行详细配置。