Hadoop集群配置

Hadoop集群配置,第1张

切换到Hadoop解压目录的etc/hadoop/目录下,编辑hadoop-env.sh,修改如下内容:

该文件是Hadoop的核心配置文件,目的是配置HDFS地址、端口号以及临时文件目录。

该文件MapReduce的核心文件,用于指定MapReduce运行时框架。在etc/hadoop/目录没有该文件,需要将mapred-site.xml.template复制并重命名为mapred-site.xml。

该文件YARN的核心文件,需要指定YARN集群的管理者。

该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件,先删除里面的内容(默认localhost),配置如下内容

完成Hadoop集群主节点hadoop01的配置后,还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上,具体指令:

  scp /etc/profile hadoop02:/etc/profile

  scp /etc/profile hadoop03:/etc/profile

  scp -r /export/ hadoop02:/

  scp -r /export/ hadoop03:/

完成后,在hadoop02和hadoop03节点刷新配置文件:

  source /etc/profile

初次启动HDFS集群时,必须对主节点进行格式化处理。注意:格式化指令只需在Hadoop集群初次启动前执行即可。指令:

hdfs namenode –format

hadoop namenode -format

出现“successfully formatted"字样表示格式化成功。

针对Hadoop集群的启动,需要启动内部包含的HDFS集群和YARN集群两个集群框架。

启动:

(1)start-dfs.sh  #启动所有HDFS服务进程

(2)start-yarn.sh  #启动所有YARN服务进程

或者:

start-all.sh直接启动整个Hadoop集群服务

关闭则直接将上述指令中的start换成stop即可。

在整个Hadoop集群服务启动完成后,可以在各自机器上通过jps指令查看各节点的服务进程启动情况。

集群启动成功。

完全分布式HA

服务器规划

技术栈包含

hdfs

hive on spark

presto

doris

superset

azkaban

kafka

fluent\flume

sqoop\kettle\flink-cdc

atlas

禁用swap/selinux

修改 IP/修改主机名/及主机名和 IP 地址的映射

时间同步/设置时区/自动时间同步

关闭防火墙

关闭SELINUX

新建用户

免密登录(先升级openssh)

发送密钥(dw01上执行)

授权

Tencent Kona v8.0.8-GA

腾讯开源的konaJDK,针对大数据场景下优化

解压并重命名至安装地址:/usr/local/java/

zookeeper-3.5.9

解压并重命名至安装地址:/usr/local/zookeeper

apache-hadoop-3.1.3 解压至安装地址:/usr/local/hadoop

修改环境变量

/usr/local/zookeeper/conf

启动zookeeper集群(每台执行)

三台服务器启动

格式化namenode(dw01执行)

启动namenode(dw01上执行)

在[nn2]和[nn3]上分别执行,同步 nn1 的元数据信息

启动nn2 nn3,分别执行

所有节点上启动datanode

将[nn1]切换为 Active

查看状态

配置yarn-site.xml

配置mapred-site.xml

分发配置文件,启动yarn(dw03 启动)

dw03节点

dw01节点

dw01执行

dw03执行

测试样例

启动脚本

HA切换namenode手动

修改yarn显示log的bug


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/263538.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-17
下一篇2023-04-17

发表评论

登录后才能评论

评论列表(0条)

    保存