阿里云DNS是一个复杂的巨型分布式系统。依托云计算丰富的计算和存储资源和技术,阿里云在全球27个Region,63个可用区,部署了 243个DNS集群 , 日解析量超过2万亿次 。
云上DNS解析服务 十几毫秒的服务延迟波动 ,都会直接影响其上的业务服务和用户体验。
阿里云提供了全系列 一站式的域名解析服务产品 ,覆盖了 公网域名解析 、 内网域名解析 、 全球流量调度 、 移动解析 以及 专有云的域名解析 场景。在云上部署业务的阿里云用户,其 运维的核心要素 就是DNS解析服务,一旦DNS解析服务出现波动,将会导致自身业务受到影响。特别是 游戏和金融行业 的企业,对解析服务质量有着极高要求。
作为日均万亿访问量的阿里云DNS,如何保障大规模的DNS解析服务高效运维和高可用?
1) 为了保证业务稳定性建设 ,阿里巴巴集团提出了 “1-5-10”的目标 ,即1分钟发现,5分钟定位,10分钟解决。目标有了,实现起来却有一定的难度。
2) 为了保障上层服务满足稳定性的目标,DNS系统作为底层基础设施的重要部分, 必须满足更高的稳定性要求 。在解析服务方面除了要做到 高可用的架构设计和部署 外,还需对 服务异常实现秒级定位和恢复 。
同时也认识到 稳定的网络基础服务的是业务连续性的基本保障 。在数字经济发展需求的驱动下,企业服务的多样性、技术架构的融合性对DNS寻址调度服务提出新的要求。
后面可以了解下DNS的集群实现原理和如何实现服务异常秒级定位和恢复的。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)