hadoop 全分布式部署

有勇气的牛排 547 大数据 2022-12-04 17:18:40

进群口令：博客

1 环境配置

1.1 系统变量

vim /etc/profile

# hadoop environment
export HADOOP_HOME=/usr/local/hadoop-2.8.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

1.2 hadoop-env.sh

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

26 export JAVA_HOME=$JAVA_HOME
34 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/

source $HADOOP_HOME/etc/hadoop/hadoop-env.sh

2 主节点配置 core-site.xml

vim $HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
    <!--配置hdfs默认的命名-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <!--配置操作hdfs缓冲区大小-->
    <property>
        <name>io.file.buffer.size</name>
        <value>4096</value>
    </property>
    <!--配置临时目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/bigdata/tmp</value>
    </property>
</configuration>

3 hdfs配置 hdfs-site.xml

需要注意 : 将主机域名替换为自己的域名

vim  $HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>
    <!--配置副本因子-->
    <property>   
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!--配置块大小-->
    <property>
        <name>dfs.block.size</name>
        <value>134217728</value>
    </property>
    <!--配置元数据的存储位置-->
    <property>     
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoopdata/dfs/name</value>
    </property>
    <!--配置datanode数据存放位置-->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoopdata/dfs/data</value>
    </property>
    <!--配置dfs检测目录存放位置-->
    <property>
        <name>fs.checkpoint.dir</name>
        <value>/home/hadoopdata/checkpoint/dfs/charlesname</value>
    </property>
    <!--配置hdfs的namenode的web ui地址-->
    <property>
        <name>dfs.http.address</name>
        <value>master:50070</value>
    </property>
    <!--配置dfs的SNN的web ui地址-->
    <property>
        <name>dfs.secondary.http.address</name>
        <value>master:50090</value>
    </property>
    <!--是否开启web操作dfs-->
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <!--是否启用hdfs的权限-->
    <property>
        <name>dfs.permissions</name>
        <value>true</value>
    </property>
</configuration>

4 mapreduce配置 mapred-site.xml

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

vim $HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration>
    <!-- 指定mr运行在yarn商 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
        <final>true</final>
    </property>
    
    <!--历史服务的通信地址-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    
    <!--历史服务的web ui通信地址-->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
    
</configuration>

5 yarn配置 yarn-site.xml

vim $HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>
    <!-- reducer获取数据的方式---指定mapreduce的shuffle -->
    <property>        
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    
    <!-- 指定yarn的ResourceManager的地址---指定resourcemanager所在的主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

    <!-- 日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 日志保留时间 设置7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>

    <!--指定resourcemanager内部通信地址-->
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <!--指定scheduler的内部通信地址-->
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <!--指定rm的resource-tracker的内部通信地址-->
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <!--指定rm的admin的内部通信地址-->
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <!--指定rm的web ui地址-->
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

6 配置节点域名

vim /usr/local/hadoop-2.8.4/etc/hadoop/slaves

master
slave1
slave2

7 完成分发任务

vim /etc/hosts

192.168.56.20 master
192.168.56.21 slave1
192.168.56.22 slave2

在两个slave里删除Hadoop目录

slave1: rm -rf /usr/local/hadoop-2.8.4/
slave2: rm -rf /usr/local/hadoop-2.8.4/

完成分发工作：

master:   
scp -r /usr/local/hadoop-2.8.4/ root@slave1:/usr/local/
scp -r /usr/local/hadoop-2.8.4/ root@slave2:/usr/local/

方法2

在master机上执行下列命令，将配置好的hadoop拷贝至slaveX、client。

cat ~/data/2/machines

for  x  in  `cat  ~/data/2/machines` ; do  echo  $x ; scp  -r  /usr/cstor/hadoop/etc  $x:/usr/cstor/hadoop  ;

8 启动

启动之前要先在namenode服务器上格式化，只需一次（多次需要删除某个文件）

hadoop namenode –format

8.1.1 全启动（推荐）

 start-all.sh

# 关闭
stop-all.sh

8.1.2 模式启动

start-dfs.sh
start-yarn.sh

8.1.3 单个进程启动

hadoop-daemon.sh start namenode
hadoop-daemons.sh start datanode
yarn-daemon.sh start namenode
yarn-daemons.sh start datanode
mr-jobhistory-daemon.sh start historyserver

9 测试

9.1 查看进程是否启动了：

jps

9.2 查看对应模块的web

http://192.168.56.20:50070

http://192.168.56.20:8088

9.3 文件操作

文件列表

hdfs dfs -ls /

创建 xx文件

hdfs dfs -mkdir xx

上传文件

hdfs dfs –put ./***  /

删除文件夹

删除文件，-rm -R 递归删除目录和文件

hadoop fs -rm   删除文件，-rm -R 递归删除目录和文件

10 跑一个程序

yarn jar /usr/local/hadoop-2.8.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.4.jar wordcount  /input/word.txt /output/01

hdfs dfs –ls /output/01
hdfs dfs –cat /output/01/part-r-00000

11 常见错误处理

WARN ipc.Client

错误：

WARN ipc.Client: Failed to connect to server: 6059master/192.168.56.20:9000: try once and fail.

50070 端口进程和 9000端口进程没有启动

11.1 查看 hdfs-site.xml

<!--配置hdfs的namenode的web ui地址-->
<property>
	<name>dfs.http.address</name>
	<value>6059master:50070</value>
</property>

11.2 关闭防火墙

# 查看防火墙状态
systemctl status firewalld
# 关闭防火墙
systemctl stop firewalld.service 
# 禁用防火墙
systemctl disable firewalld.service

还有个防火墙是selinux: 要设置为 vim /etc/selinux/config

SELINUX=disabled

11.3 namenode节点没有启动

cd /usr/local/hadoop-2.8.4/bin/

hdfs namenode -format

<h2><a id="1__0"></a>1 环境配置</h2> <h3><a id="11__2"></a>1.1 系统变量</h3> <pre><div class="hljs"><code class="lang-shell">vim /etc/profile </code></div></pre> <pre><div class="hljs"><code class="lang-shell"># hadoop environment export HADOOP_HOME=/usr/local/hadoop-2.8.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: </code></div></pre> <h3><a id="12_hadoopenvsh_14"></a>1.2 hadoop-env.sh</h3> <pre><div class="hljs"><code class="lang-shell">vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh </code></div></pre> <pre><div class="hljs"><code class="lang-shell">26 export JAVA_HOME=$JAVA_HOME 34 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/ </code></div></pre> <pre><div class="hljs"><code class="lang-shell">source $HADOOP_HOME/etc/hadoop/hadoop-env.sh </code></div></pre> <h2><a id="2__coresitexml_29"></a>2 主节点配置 core-site.xml</h2> <pre><div class="hljs"><code class="lang-shell">vim $HADOOP_HOME/etc/hadoop/core-site.xml </code></div></pre> <pre><div class="hljs"><code class="lang-xml"><configuration>  <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property>  <property> <name>io.file.buffer.size</name> <value>4096</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/home/bigdata/tmp</value> </property> </configuration> </code></div></pre> <h2><a id="3_hdfs_hdfssitexml_55"></a>3 hdfs配置 hdfs-site.xml</h2> 需要注意 : 将主机域名替换为自己的域名 <pre><div class="hljs"><code class="lang-shell">vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml </code></div></pre> <pre><div class="hljs"><code class="lang-xml"><configuration>  <property> <name>dfs.replication</name> <value>3</value> </property>  <property> <name>dfs.block.size</name> <value>134217728</value> </property>  <property> <name>dfs.namenode.name.dir</name> <value>file:///home/hadoopdata/dfs/name</value> </property>  <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoopdata/dfs/data</value> </property>  <property> <name>fs.checkpoint.dir</name> <value>/home/hadoopdata/checkpoint/dfs/charlesname</value> </property>  <property> <name>dfs.http.address</name> <value>master:50070</value> </property>  <property> <name>dfs.secondary.http.address</name> <value>master:50090</value> </property>  <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property>  <property> <name>dfs.permissions</name> <value>true</value> </property> </configuration> </code></div></pre> <h2><a id="4_mapreduce_mapredsitexml_112"></a>4 mapreduce配置 mapred-site.xml</h2> <pre><div class="hljs"><code class="lang-shell">cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml </code></div></pre> <pre><div class="hljs"><code class="lang-shell">vim $HADOOP_HOME/etc/hadoop/mapred-site.xml </code></div></pre> <pre><div class="hljs"><code class="lang-xml"><configuration>  <property> <name>mapreduce.framework.name</name> <value>yarn</value> <final>true</final> </property>  <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property>  <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property> </configuration> </code></div></pre> <h2><a id="5_yarn_yarnsitexml_146"></a>5 yarn配置 yarn-site.xml</h2> <pre><div class="hljs"><code class="lang-shell">vim $HADOOP_HOME/etc/hadoop/yarn-site.xml </code></div></pre> <pre><div class="hljs"><code class="lang-xml"><configuration>  <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>  <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property>  <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>  <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>  <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property>  <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property>  <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8031</value> </property>  <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property>  <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property> </configuration> </code></div></pre> <h2><a id="6__205"></a>6 配置节点域名</h2> <pre><div class="hljs"><code class="lang-shell">vim /usr/local/hadoop-2.8.4/etc/hadoop/slaves </code></div></pre> <pre><div class="hljs"><code class="lang-shell">master slave1 slave2 </code></div></pre> <h2><a id="7__217"></a>7 完成分发任务</h2> <pre><div class="hljs"><code class="lang-shell">vim /etc/hosts </code></div></pre> <pre><div class="hljs"><code class="lang-shell">192.168.56.20 master 192.168.56.21 slave1 192.168.56.22 slave2 </code></div></pre> 在两个slave里删除Hadoop目录 <pre><div class="hljs"><code class="lang-shell">slave1: rm -rf /usr/local/hadoop-2.8.4/ slave2: rm -rf /usr/local/hadoop-2.8.4/ </code></div></pre> 完成分发工作： <pre><div class="hljs"><code class="lang-shell">master: scp -r /usr/local/hadoop-2.8.4/ root@slave1:/usr/local/ scp -r /usr/local/hadoop-2.8.4/ root@slave2:/usr/local/ </code></div></pre> 方法2 在master机上执行下列命令，将配置好的hadoop拷贝至slaveX、client。 <pre><div class="hljs"><code class="lang-shell">cat ~/data/2/machines </code></div></pre> <img src="https://static.couragesteak.com/article/b6493379b62eaae331876bf09310040c.png" alt="image.png" /> <pre><div class="hljs"><code class="lang-shell">for x in `cat ~/data/2/machines` ; do echo $x ; scp -r /usr/cstor/hadoop/etc $x:/usr/cstor/hadoop ; </code></div></pre> <h2><a id="8__257"></a>8 启动</h2> 启动之前要先在namenode服务器上格式化，只需一次（多次需要删除某个文件） <pre><div class="hljs"><code class="lang-shell">hadoop namenode –format </code></div></pre> <h3><a id="811__264"></a>8.1.1 全启动（推荐）</h3> <pre><div class="hljs"><code class="lang-shell"> start-all.sh </code></div></pre> <pre><div class="hljs"><code class="lang-shell"># 关闭 stop-all.sh </code></div></pre> <h3><a id="812__275"></a>8.1.2 模式启动</h3> <pre><div class="hljs"><code class="lang-shell">start-dfs.sh start-yarn.sh </code></div></pre> <h3><a id="813__281"></a>8.1.3 单个进程启动</h3> <pre><div class="hljs"><code class="lang-shell">hadoop-daemon.sh start namenode hadoop-daemons.sh start datanode yarn-daemon.sh start namenode yarn-daemons.sh start datanode mr-jobhistory-daemon.sh start historyserver </code></div></pre> <h2><a id="9__291"></a>9 测试</h2> <h3><a id="91__293"></a>9.1 查看进程是否启动了：</h3> <pre><div class="hljs"><code class="lang-shell">jps </code></div></pre> <h3><a id="92_web_299"></a>9.2 查看对应模块的web</h3> <pre><div class="hljs"><code class="lang-shell">http://192.168.56.20:50070 </code></div></pre> <img src="https://static.couragesteak.com/article/40cd50d837077d75f87f689bd6ff5bb4.png" alt="image.png" /> <pre><code class="lang-powershell">http://192.168.56.20:8088 </code></pre> <img src="https://static.couragesteak.com/article/6ea168af0b10af5583f90973f9821985.png" alt="image.png" /> <h3><a id="93__312"></a>9.3 文件操作</h3> 文件列表 <pre><code class="lang-powershell">hdfs dfs -ls / </code></pre> 创建 xx文件 <pre><code class="lang-powershell">hdfs dfs -mkdir xx </code></pre> 上传文件 <pre><code class="lang-powershell">hdfs dfs –put ./*** / </code></pre> 删除文件夹 删除文件，-rm -R 递归删除目录和文件 <pre><code>hadoop fs -rm 删除文件，-rm -R 递归删除目录和文件 </code></pre> <h2><a id="10__340"></a>10 跑一个程序</h2> <pre><code class="lang-powershell">yarn jar /usr/local/hadoop-2.8.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.4.jar wordcount /input/word.txt /output/01 </code></pre> <pre><code class="lang-powershell">hdfs dfs –ls /output/01 hdfs dfs –cat /output/01/part-r-00000 </code></pre> <h2><a id="11__351"></a>11 常见错误处理</h2> WARN ipc.Client 错误： <pre><code>WARN ipc.Client: Failed to connect to server: 6059master/192.168.56.20:9000: try once and fail. </code></pre> 50070 端口进程和 9000端口进程没有启动 <h3><a id="111__hdfssitexml_361"></a>11.1 查看 hdfs-site.xml</h3> <pre><div class="hljs"><code class="lang-xml"> <property> <name>dfs.http.address</name> <value>6059master:50070</value> </property> </code></div></pre> <h3><a id="112__371"></a>11.2 关闭防火墙</h3> <pre><code class="lang-powershell"># 查看防火墙状态 systemctl status firewalld # 关闭防火墙 systemctl stop firewalld.service # 禁用防火墙 systemctl disable firewalld.service </code></pre> 还有个防火墙是selinux: 要设置为 vim /etc/selinux/config <pre><code class="lang-powershell">SELINUX=disabled </code></pre> <h3><a id="113_namenode_385"></a>11.3 namenode节点没有启动</h3> <pre><code class="lang-powershell">cd /usr/local/hadoop-2.8.4/bin/ </code></pre> <pre><code class="lang-powershell">hdfs namenode -format </code></pre>