服务器规划
技术栈包含
hdfs
hive on spark
presto
doris
superset
azkaban
kafka
fluent\flume
sqoop\kettle\flink-cdc
atlas
禁用swap/selinux
修改 IP/修改主机名/及主机名和 IP 地址的映射
时间同步/设置时区/自动时间同步
关闭防火墙
关闭SELINUX
新建用户
免密登录(先升级openssh)
发送密钥(dw01上执行)
授权
Tencent Kona v8.0.8-GA
腾讯开源的konaJDK,针对大数据场景下优化
解压并重命名至安装地址:/usr/local/java/
zookeeper-3.5.9
解压并重命名至安装地址:/usr/local/zookeeper
apache-hadoop-3.1.3 解压至安装地址:/usr/local/hadoop
修改环境变量
/usr/local/zookeeper/conf
启动zookeeper集群(每台执行)
三台服务器启动
格式化namenode(dw01执行)
启动namenode(dw01上执行)
在[nn2]和[nn3]上分别执行,同步 nn1 的元数据信息
启动nn2 nn3,分别执行
所有节点上启动datanode
将[nn1]切换为 Active
查看状态
配置yarn-site.xml
配置mapred-site.xml
分发配置文件,启动yarn(dw03 启动)
dw03节点
dw01节点
dw01执行
dw03执行
测试样例
启动脚本
HA切换namenode手动
修改yarn显示log的bug
最好是两个做成HA。
6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧这仅仅是HDFS存储,(这里我说的是一个月的,你数据保存几个月,就乘几倍)。
如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了。
一般是这样计算硬盘大小:
(原始数据+中间数据+结果数据)*副本数量=总硬盘大小
性能运行快。Docker容器是一个开源的应用容器引擎,搭建hadoop好处是提供比传统虚机更好的性能,运行更快。docker让开发者可以以统一的方式打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何安装了docker引擎的服务器上也可以实现虚拟化。欢迎分享,转载请注明来源:夏雨云
评论列表(0条)