阿里云DNS是一个复杂的巨型分布式系统。依托云计算丰富的计算和存储资源和技术,阿里云在全球27个Region,63个可用区,部署了 243个DNS集群 , 日解析量超过2万亿次 。
云上DNS解析服务 十几毫秒的服务延迟波动 ,都会直接影响其上的业务服务和用户体验。
阿里云提供了全系列 一站式的域名解析服务产品 ,覆盖了 公网域名解析 、 内网域名解析 、 全球流量调度 、 移动解析 以及 专有云的域名解析 场景。在云上部署业务的阿里云用户,其 运维的核心要素 就是DNS解析服务,一旦DNS解析服务出现波动,将会导致自身业务受到影响。特别是 游戏和金融行业 的企业,对解析服务质量有着极高要求。
作为日均万亿访问量的阿里云DNS,如何保障大规模的DNS解析服务高效运维和高可用?
1) 为了保证业务稳定性建设 ,阿里巴巴集团提出了 “1-5-10”的目标 ,即1分钟发现,5分钟定位,10分钟解决。目标有了,实现起来却有一定的难度。
2) 为了保障上层服务满足稳定性的目标,DNS系统作为底层基础设施的重要部分, 必须满足更高的稳定性要求 。在解析服务方面除了要做到 高可用的架构设计和部署 外,还需对 服务异常实现秒级定位和恢复 。
同时也认识到 稳定的网络基础服务的是业务连续性的基本保障 。在数字经济发展需求的驱动下,企业服务的多样性、技术架构的融合性对DNS寻址调度服务提出新的要求。
后面可以了解下DNS的集群实现原理和如何实现服务异常秒级定位和恢复的。
DNS(Domain Name System),即域名系统,是互联网中最基础的一项服务,主要提供域名和 IP 地址之间映射关系的查询服务。
DNS 不仅方便了人们访问不同的互联网服务,更为很多应用提供了,动态服务发现和全局负载均衡(Global Server Load Balance,GSLB)的机制。这样,DNS 就可以选择离用户最近的 IP 来提供服务。即使后端服务的 IP 地址发生变化,用户依然可以用相同域名来访问。
我们以极客时间的网站 time.geekbang.org 为例,来理解域名的含义。
这个字符串中,最后面的 org 是顶级域名,中间的 geekbang 是二级域名,而最左边的 time 则是三级域名。
如下图所示,注意点(.)是所有域名的根,也就是说所有域名都以点作为后缀,也可以理解为,在域名解析的过程中,所有域名都以点结束。
# host www.baidu.com
# nslookup www.baidu.com
# nslookup www.baidu.com 8.8.8.8
# dig www.baidu.com
# nslookup -debug time.geekbang.org
# time nslookup time.geekbang.org
# dig +trace +nodnssec time.geekbang.org
Why option rotate in resolv.conf picks up second nameserver as first every time?
https://access.redhat.com/solutions/1426263
nslookup-OK-but-ping-fail问题处理
https://plantegg.github.io/2019/01/09/nslookup-OK-but-ping-fail
time命令:测量命令的执行时间或者系统资源的使用情况
http://m.biancheng.net/linux/time.html
程序员如何学习和构建网络知识体系
https://plantegg.github.io/2020/05/24/%E7%A8%8B%E5%BA%8F%E5%91%98%E5%A6%82%E4%BD%95%E5%AD%A6%E4%B9%A0%E5%92%8C%E6%9E%84%E5%BB%BA%E7%BD%91%E7%BB%9C%E7%9F%A5%E8%AF%86%E4%BD%93%E7%B3%BB
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)