在CentOS7上安装和配置Hadoop-精创网络云防护

帮助文档
在CentOS7上安装和配置Hadoop
来源：www.jcwlyf.com更新时间：2025-02-06
随着大数据的飞速发展，Hadoop成为了处理和存储海量数据的重要工具。Hadoop是一个开源的分布式计算框架，主要用于大规模数据的处理，能够有效地管理和分析PB级的数据。在本教程中，我们将详细介绍如何在CentOS7上安装和配置Hadoop，包括环境准备、安装步骤、配置文件的设置以及运行Hadoop的基本操作。
一、环境准备
在安装Hadoop之前，我们需要先确保CentOS7系统的环境配置符合Hadoop的运行要求。以下是配置过程中需要注意的事项：
1. 确保系统版本：Hadoop 需要Linux系统支持，CentOS7是一个非常适合运行Hadoop的操作系统。请通过以下命令检查系统版本：
```
cat /etc/centos-release
```
2. 更新系统：在安装之前，确保系统已更新到最新版本。可以使用以下命令更新系统：
```
sudo yum update -y
```
3. 配置主机名和静态IP：为了确保集群内部能够正确通信，设置静态IP地址，并配置主机名。编辑/etc/hosts文件，加入以下内容：
```
sudo vi /etc/hosts
```
在文件中添加如下内容：
```
127.0.0.1   localhost
192.168.1.10  hadoop-master
192.168.1.11  hadoop-slave1
192.168.1.12  hadoop-slave2
```
4. 安装JDK：Hadoop依赖Java运行环境，因此需要先安装JDK。CentOS7自带OpenJDK，但为了更好的兼容性，建议使用Oracle JDK。
使用以下命令安装Oracle JDK 8：
```
sudo yum install -y java-1.8.0-openjdk-devel
```
安装完成后，检查JDK版本：
```
java -version
```
二、下载并安装Hadoop
1. 下载Hadoop：访问Hadoop的官方网站，下载适合CentOS7的Hadoop版本。我们以Hadoop 3.3.0为例，使用以下命令下载：
```
wget https://apache.claz.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
```
2. 解压并安装Hadoop：下载完成后，解压Hadoop安装包并移动到/opt目录：
```
tar -xzvf hadoop-3.3.0.tar.gz
sudo mv hadoop-3.3.0 /opt/hadoop
```
3. 配置环境变量：为了方便使用，编辑/etc/profile文件，配置Hadoop的环境变量：
```
sudo vi /etc/profile
```
在文件末尾添加以下内容：
```
export HADOOP_HOME=/opt/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME/share/hadoop/common
export HADOOP_HDFS_HOME=$HADOOP_HOME/share/hadoop/hdfs
export HADOOP_MAPRED_HOME=$HADOOP_HOME/share/hadoop/mapreduce
export HADOOP_YARN_HOME=$HADOOP_HOME/share/hadoop/yarn
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
```
保存并退出，使用以下命令使环境变量生效：
```
source /etc/profile
```
三、配置Hadoop
Hadoop的配置主要通过修改配置文件来实现。我们需要配置一些关键文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml。以下是每个配置文件的详细设置：
1. 配置core-site.xml
编辑core-site.xml，配置Hadoop的基础信息：
```
sudo vi $HADOOP_HOME/etc/hadoop/core-site.xml
```
添加以下内容：
```
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-master:9000</value>
    </property>
</configuration>
```
2. 配置hdfs-site.xml
编辑hdfs-site.xml，配置HDFS的存储路径和副本数：
```
sudo vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml
```
添加以下内容：
```
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>file:///opt/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>file:///opt/hadoop/hdfs/datanode</value>
    </property>
</configuration>
```
3. 配置mapred-site.xml
编辑mapred-site.xml，配置MapReduce框架：
```
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
sudo vi $HADOOP_HOME/etc/hadoop/mapred-site.xml
```
添加以下内容：
```
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
```
4. 配置yarn-site.xml
编辑yarn-site.xml，配置YARN资源管理器：
```
sudo vi $HADOOP_HOME/etc/hadoop/yarn-site.xml
```
添加以下内容：
```
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop-master</value>
    </property>
</configuration>
```
四、格式化HDFS
配置完成后，我们需要格式化HDFS，以便创建文件系统。在Hadoop安装目录下运行以下命令：
```
$HADOOP_HOME/bin/hdfs namenode -format
```
如果没有错误信息输出，说明HDFS已成功格式化。
五、启动Hadoop服务
1. 启动Hadoop集群：启动Hadoop集群时，需要启动Namenode、Datanode、ResourceManager和NodeManager。可以通过以下命令启动：
```
start-dfs.sh
start-yarn.sh
```
2. 检查服务是否正常启动：使用以下命令检查各个服务的状态：
```
jps
```
如果看到如NameNode、DataNode、ResourceManager等进程，说明Hadoop集群已正常启动。
六、配置集群
为了实现多节点集群，您需要将各个节点的Hadoop配置文件同步到所有节点，并确保各节点间的SSH无密码登录。可以通过以下步骤完成：
1. 在主节点生成SSH密钥对：
```
ssh-keygen -t rsa
```
2. 将公钥复制到各个节点：
```
ssh-copy-id user@hadoop-slave1
ssh-copy-id user@hadoop-slave2
```
3. 验证SSH免密登录是否成功：
```
ssh user@hadoop-slave1
ssh user@hadoop-slave2
```
七、测试Hadoop集群
1. 上传文件到HDFS：使用以下命令将文件上传到HDFS：
```
hadoop fs -put localfile /user/hadoop/
```
2. 查看HDFS中的文件：使用以下命令查看HDFS中的文件：
```
hadoop fs -ls /user/hadoop/
```
3. 运行MapReduce作业：可以运行Hadoop自带的例子程序来测试集群是否正常工作：
```
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar pi 16 1000
```
如果一切正常，Hadoop集群的安装和配置就完成了。