在Linux系统上安装Hadoop的步骤大致可以分为以下几个部分:
1. 环境准备
- 选择Linux发行版:推荐使用Ubuntu 24.2或其他稳定版本。
- 安装JDK:下载JDK 1.8.0_361(或其他兼容版本),并使用APT管理工具安装。
sudo apt-get update sudo apt-get install openjdk-8-jdk
- 验证安装:通过执行
java -version
命令来检查Java是否安装成功。
2. 安装Hadoop
- 下载Hadoop:从Hadoop官方网站下载所需版本的Hadoop安装包。例如,下载Hadoop 3.3.5版本。
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
- 解压文件:将下载的文件解压到指定目录,例如
/opt/hadoop
。sudo tar -zxvf hadoop-3.3.5.tar.gz -C /opt/hadoop
3. 配置环境变量
- 编辑
.bashrc
文件:添加以下内容:export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin
- 使配置生效:
source ~/.bashrc
4. 配置Hadoop
- 修改Hadoop配置文件:
core-site.xml
:配置HDFS的URI。hdfs-site.xml
:配置HDFS的副本数和其他参数。mapred-site.xml
(可选,如果需要YARN支持):配置MapReduce框架。yarn-site.xml
(可选,如果需要YARN支持):配置YARN资源管理器。
5. 格式化NameNode
- 在首次启动Hadoop之前,需要对HDFS进行格式化。
hdfs namenode -format
6. 启动Hadoop集群
- 启动HDFS和YARN服务。
start-dfs.sh start-yarn.sh
7. 验证安装
- 访问Hadoop Web界面:
- HDFS:http://localhost:50070
- YARN:http://localhost:8088
8. 配置SSH免密登录
- 生成SSH密钥对并分发到所有节点。
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 测试免密登录:
ssh localhost
注意事项
- 确保所有节点的配置文件(如
core-site.xml
,hdfs-site.xml
等)中的配置一致。 - 在配置SSH无密码登录时,确保所有节点的公钥都已正确分发。
以上步骤提供了一个基本的指南,具体安装过程中可能还需要根据实际环境和需求进行调整。建议参考Hadoop官方文档或相关教程以获取更详细的指导。