hadoop集群搭建（Hadoop 3.1.3 Hive 3.1.2Spark 3.0.0）_服务器知识

完全分布式HA

服务器规划

技术栈包含

hdfs

hive on spark

presto

doris

superset

azkaban

kafka

fluent\flume

sqoop\kettle\flink-cdc

atlas

禁用swap/selinux

修改 IP/修改主机名/及主机名和 IP 地址的映射

时间同步/设置时区/自动时间同步

关闭防火墙

关闭SELINUX

新建用户

免密登录（先升级openssh）

发送密钥（dw01上执行）

授权

Tencent Kona v8.0.8-GA

腾讯开源的konaJDK，针对大数据场景下优化

解压并重命名至安装地址：/usr/local/java/

zookeeper-3.5.9

解压并重命名至安装地址：/usr/local/zookeeper

apache-hadoop-3.1.3 解压至安装地址：/usr/local/hadoop

修改环境变量

/usr/local/zookeeper/conf

启动zookeeper集群（每台执行）

三台服务器启动

格式化namenode（dw01执行）

启动namenode(dw01上执行)

在[nn2]和[nn3]上分别执行，同步 nn1 的元数据信息

启动nn2 nn3，分别执行

所有节点上启动datanode

将[nn1]切换为 Active

查看状态

配置yarn-site.xml

配置mapred-site.xml

分发配置文件，启动yarn(dw03 启动)

dw03节点

dw01节点

dw01执行

dw03执行

测试样例

启动脚本

HA切换namenode手动

修改yarn显示log的bug

最好是两个做成HA。

6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧这仅仅是HDFS存储，(这里我说的是一个月的,你数据保存几个月,就乘几倍)。

如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了。

一般是这样计算硬盘大小：

(原始数据+中间数据+结果数据)*副本数量=总硬盘大小

性能运行快。Docker容器是一个开源的应用容器引擎，搭建hadoop好处是提供比传统虚机更好的性能，运行更快。docker让开发者可以以统一的方式打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何安装了docker引擎的服务器上也可以实现虚拟化。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/295692.html

hadoop集群搭建（Hadoop 3.1.3 Hive 3.1.2Spark 3.0.0）

发表评论

评论列表（0条）