在Linux下配置Hadoop的步骤大致可以分为以下几个部分:
环境准备
- 选择Linux发行版:推荐使用Ubuntu 24.2或其他稳定版本。
- 安装JDK:下载JDK 1.8.0_361(或其他兼容版本),并使用APT管理工具进行安装。
- 验证安装:通过
java -version
命令验证Java是否安装成功。
配置SSH免密登录
- 生成密钥对:使用
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
命令生成密钥对。 - 将公钥添加到authorized_keys文件中:使用
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
命令。 - 测试免密登录:通过
ssh localhost
命令测试是否能够无密码登录。
安装Hadoop
- 下载Hadoop:从Hadoop官方网站下载所需版本的Hadoop二进制文件。
- 解压文件:使用
tar -zxvf hadoop-3.3.5.tar.gz -C /opt/hadoop
命令将压缩包解压到指定目录。 - 配置环境变量:编辑
~/.bashrc
文件,添加Hadoop和Java的环境变量,并通过source ~/.bashrc
命令使配置生效。
配置Hadoop
- 修改Hadoop配置文件:
core-site.xml
:配置HDFS的URI。hdfs-site.xml
:配置HDFS的副本数和其他参数。mapred-site.xml
(可选,如果需要YARN支持):配置MapReduce框架。yarn-site.xml
(可选):配置YARN资源管理器。
格式化NameNode
- 在首次启动Hadoop之前,需要对HDFS进行格式化,使用命令
hdfs namenode -format
。
启动Hadoop集群
- 启动HDFS和YARN服务:使用
start-dfs.sh
和start-yarn.sh
命令启动Hadoop集群。
验证部署
- 访问Hadoop Web界面:打开浏览器,访问
http://localhost:50070
查看HDFS的状态,访问http://localhost:8088
查看YARN的状态。
请注意,以上步骤是一个基本的Hadoop部署流程,具体配置可能会因不同的需求和环境而有所不同。建议在部署前详细阅读Hadoop官方文档,并根据实际情况进行调整。