六脉神剑之CDH运维手册

六脉神剑之CDH运维手册,第1张

异常信息:

问题解决方式:

/data/var/lib/zookeeper/version-2 文件夹下的文件全部删除

然后重启zookeeper,启动成功。

此角色的日志目录所在的文件系统的可用空间小于5.0吉字节。到出现故障的节点查看磁盘使用情况。

可以看到由于数据都挂载在根目录,而home、data目录却有大量空间,故在home目录下创建dfs、log,并将根目录下/dfs,/var/log下关于cdh的文件或目录mv到/home下,并做软链接,然后启动服务就ok了,记得mv前停止服务。

接下来分析,为什么 / 根目录下的磁盘空间全部使用完了。

发现以上文件目录占用磁盘大于100M,使用du -h 文件名 依次查看文件大小。

G7项目居然没做日志大小限制。如果是java开发使用log4j打印日志,可以把日志的大小限制,一共只许生成多少个文件,循环覆盖。

参考: https://www.cnblogs.com/xiaowangba/p/6314179.html

修改配置:

异常信息:

和上面问题相同,也是磁盘空间不够。

将清研日志打开查看究竟是什么日志需要打印96G大小,且不删除。

实际上两个异常原因相同。

继续往上翻日志,发现一个INFO级别的异常日志

日志显示analye8服务器被拒绝,是因为ClockOutOfSyncException异常,Reported time is too far out of sync with master Time difference of 131097ms >max allowed of 30000ms.

上环境查看各服务器的时钟是否同步。

到这,就清楚了HRegionServer 为什么被中止了,出现该问题的原因:因为整个集群时间没有统一,导致master连接slave超时,所以导致从节点的HRegionServer进程没有正常启动。

实际上analye8 时间与互联网时间一致,是其它服务器的时间跑快了

为了方便,这里将analye8 的时间往前调整三分钟,与Master保持一致。修改方式:

重启hbase服务。

至此,135集群环境所有异常修复完毕,看着干净无污染的监控界面,心情顿时开朗了。

系统运维工程师需要具备良好沟通能力,具备较强的责任心及工作执行力,对人热情,有良好的团队合作精神以下是我精心收集整理的系统运维工程师工作职责,下面我就和大家分享,来欣赏一下吧。

系统运维工程师工作职责1

1. 负责项目版本管理和发布管理,实现环境版本迭代的顺利交付。

2. 参与制定配置管理规范,流程和策略,针对具体项目制定具体的配置管理计划。

3. 持续集成和持续交付管理模式的建设与优化,及相关平台的技术调研。

4. 配置管理平台维护,确保配置相关工具平台、site、beta及生产环境的稳定性。

5. 负责生产环境的巡检与问题排查,紧急问题的处理。

6. 项目日常支持,流程工具的培训指导,协助解决项目配置管理相关问题

系统运维工程师工作职责2

1、负责公司的软件系统的日常维护和培训

2、负责与软件服务厂商的日常沟通协作

3、负责公司BI系统数据报表的开发和培训

4、完成上级交办的 其它 事项

5、完成与IT相关的综合性支持工作。

系统运维工程师工作职责3

1.根据维护及工作要求,对设备、设施及系统进行现场/远程检查

2.能对设备、设施及系统的问题进行简单故常排除。

3.负责记录巡检及故障 报告 。

系统运维工程师工作职责4

1、 负责系统运行团队的日常运维工作

2、 做好相关系统运行情况的值班记录和数据汇总工作

3、 负责团队运维系统的安装、调试、维护、监控和故障处理等日常工作,对团队运维系统提供技术支撑,保证系统稳定运行

4、 负责日常运维问题记录、反馈和跟踪。

5、 撰写相关的运行维护手册和后续完善修订,定期编写系统运行维护报告。

6、 完成领导安排的其他事项。

系统运维工程师工作职责5

1、整体设计,参与项目架构设计,运维方案撰写,推动落地实施。

2、实施部署,合理计划,把控项目实施部署节奏,保障工作质量。

3、系统优化,主导必要系统优化工作,解决系统性能瓶颈。

4、日常运维,分析运维指标,优化执行过程,提供工作效率。

5、问题处理,剖析问题根源,深刻理解原理,给出明确的解决思路。

6、运维管理,主导新技术调研并分享,考虑系统稳定性、执行高效性,管理一个项目运维交付。

系统运维工程师工作职责6

1、负责Linux\Windows物理服务器日常维护及公司内部网络软硬件维护

2、负责服务器的系统安装和网络服务配置

3、参与APP开发,全生命周期运维管理,包括制定系统架构规范、技术规范、系统安装部署等

4、负责环境搭建、安全防护、系统部署上线、变更处理、参数优化、漏洞修复等、故障排除

5、负责系统的日常运维管理,并分析系统运行数据,对性能、容量提出优化建议并实施,包括架构优化、系统扩容等

6、负责阿里云服务器管理、维护、集群搭建、分布式管理及现网变更,事件、告警、奔溃处理,并分析改进

7、协助编写日常运维操作手册,建立应用运维的制度,知识管理体系、流程与文档等。

系统运维工程师工作职责7

1. 负责城市视频监控系统前端系统的巡检、调试工作

2. 负责城市视频监控系统前端系统故障的判断与排除

3. 负责一般性网络、监控等技术问题的咨询工作

系统运维工程师工作职责具体内容相关 文章 :

★ 系统运维工程师岗位的主要职责描述

★ 系统运维工程师的职责内容

★ 系统运维工程师的工作职责

★ 系统运维工程师的主要职责描述

★ 系统运维工程师岗位的基本职责

★ 系统运维工程师的岗位职责范本

★ 运维工程师的岗位职责描述

★ 系统运维工程师的具体内容

★ 运维工程师的具体职责概述


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/460965.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-03
下一篇2023-06-03

发表评论

登录后才能评论

评论列表(0条)

    保存