当前,为推进IT支撑系统集约化建设和运营,进一步发挥集中化能力优势,IT云成为运营商IT支撑系统建设的基础架构。但在IT云资源池部署过程中,服务器技术面临多个新挑战,主要体现在以下3个方面。
在性能方面,人工智能(AI)应用快速扩张,要求IT云采用高性能GPU服务器。AI已在电信业网络覆盖优化、批量投诉定界、异常检测/诊断、业务识别、用户定位等场景规模化应用。AI应用需求的大量出现,要求数据中心部署的服务器具有更好的计算效能、吞吐能力和延迟性能,以传统通用x86服务器为核心的计算平台显得力不从心,GPU服务器因此登上运营商IT建设的历史舞台。
在效率成本方面,IT云部署通用服务器存在弊端,催生定制化整机柜服务器应用需求。在IT云建设过程中,由于业务需求增长快速,IT云资源池扩容压力较大,云资源池中的服务器数量快速递增,上线效率亟需提高。同时,传统通用服务器部署模式周期长、部署密度低的劣势,给数据中心空间、电力、建设成本和高效维护管理都带来了较大的挑战。整机柜服务器成为IT云建设的另一可选方案。
在节能方面,AI等高密度应用场景的快速发展,驱动液冷服务器成为热点。随着AI高密度业务应用的发展,未来数据中心服务器功率将从3kW~5kW向20kW甚至100kW以上规模发展,传统的风冷式服务器制冷系统解决方案已经无法满足制冷需求,液冷服务器成为AI应用场景下的有效解决方案。
GPU服务器技术发展态势及在电信业的应用
GPU服务器技术发展态势
GPU服务器是单指令、多数据处理架构,通过与CPU协同进行工作。从CPU和GPU之间的互联架构进行划分,GPU服务器又可分为基于传统PCIe架构的GPU服务器和基于NVLink架构的GPU服务器两类。GPU服务器具有通用性强、生态系统完善的显著优势,因此牢牢占据了AI基础架构市场的主导地位,国内外主流厂商均推出不同规格的GPU服务器。
GPU服务器在运营商IT云建设中的应用
当前,电信业开始推动GPU服务器在IT云资源池中的应用,省公司现网中已经部署了部分GPU服务器。同时,考虑到GPU成本较高,集团公司层面通过建设统一AI平台,集中化部署一批GPU服务器,形成AI资源优化配置。从技术选型来看,目前运营商IT云资源池采用英伟达、英特尔等厂商相关产品居多。
GPU服务器在IT云应用中取得了良好的效果。在现网部署的GPU服务器中,与训练和推理相关的深度学习应用占主要部分,占比超过70%,支撑的业务包括网络覆盖智能优化、用户智能定位、智能营销、智能稽核等,这些智能应用减少了人工投入成本,提升了工作效率。以智能稽核为例,以往无纸化业务单据的人工稽核平均耗时约48秒/单,而AI稽核平均耗时仅约5秒/单,稽核效率提升达 90%。同时,无纸化业务单据人工稽核成本约1.5元/单,采用GPU进行AI稽核成本约0.048元/单,稽核成本降低达96.8%。
整机柜服务器发展态势及在电信业的应用
整机柜服务器技术发展态势
整机柜服务器是按照模块化设计思路打造的服务器解决方案,系统架构由机柜、网络、供电、服务器节点、集中散热、集中管理6个子系统组成,是对数据中心服务器设计技术的一次根本性变革。整机柜服务器将供电单元、散热单元池化,通过节约空间来提高部署密度,其部署密度通常可以翻倍。集中供电和散热的设计,使整机柜服务器仅需配置传统机柜式服务器10%的电源数量就可满足供电需要,电源效率可以提升10%以上,且单台服务器的能耗可降低5%。
整机柜服务器在运营商IT云建设中的应用
国内运营商在IT云建设中已经推进了整机柜服务器部署,经过实际应用检验,在如下方面优势明显。
一是工厂预制,交付工时大幅缩短。传统服务器交付效率低,采用整机柜服务器将原来在数据中心现场进行的服务器拆包、上架、布线等工作转移到工厂完成,部署的颗粒度从1台上升到几十台,交付效率大大提升。以一次性交付1500台服务器为例,交付工作量可减少170~210人天,按每天配10人计算,现场交付时间可节省约17~21天。
二是资源池化带来部件数量降低,故障率大幅下降。整机柜服务器通过将供电、制冷等部件资源池化,大幅减少了部件数量,带来故障率的大幅降低。图1比较了32节点整机柜服务器与传统1U、2U服务器机型各自的电源部件数量及在一年内的月度故障率情况。由于32节点整机柜服务器含10个电源部件,而32台1U通用服务器的电源部件为64个,相较而言,整机柜电源部件数减少84.4%。由于电源部件数量的降低,32节点整机柜服务器相对于32台1U通用服务器的月度故障率也大幅缩减。
三是运维效率提升60%以上。整机柜服务器在工厂预制机柜布线,网络线缆在工厂经过预处理,线缆长度精确匹配,理线简洁,接线方式统一规范,配合运维标签,在运维中可以更方便简洁地对节点实施维护操作,有效降低运维误操作,提升运维效率60%以上,并大幅减少发生故障后的故障恢复时间。
液冷服务器技术发展态势及在电信业的应用
液冷服务器技术发展态势
液冷服务器技术也称为服务器芯片液体冷却技术,采用特种或经特殊处理的液体,直接或近距离间接换热冷却芯片或者IT整体设备,具体包括冷板式冷却、浸没式冷却和喷淋式冷却3种形态。液冷服务器可以针对CPU热岛精确定点冷却,精确控制制冷分配,能真正将高密度部署带到前所未有的更高层级(例如20kW~100kW高密度数据中心),是数据中心节能技术的发展方向之一,3种液冷技术对比如表1所示。
液冷服务器在运营商IT建设中的应用
液冷服务器技术目前在我国仍处于应用初期,产业链尚不完备、设备采购成本偏高、采购渠道少、电子元器件的兼容性低、液冷服务器专用冷却液成本高等问题是液冷服务器尚未大规模推广的重要原因。从液冷服务器在运营商数据中心领域的具体应用案例来看,运营商在IT云资源池规划和建设过程中,通常会对液冷服务器的发展现状、技术成熟度等进行分析论证。
考虑到目前液冷服务器规模化应用尚处于起步阶段,需要3~5年的引入期,因此暂时未在IT云资源池建设中进行大规模落地部署,但在部分地区有小规模应用,如中国移动南方基地数据中心已经开展液冷服务器试点应用,中国联通研究院也在开展边缘数据中心服务器喷淋式液冷系统的开发。未来,随着IT云建设规模、建设密度的继续攀升,以及液冷产业生态体系的逐步成熟,液冷服务器在IT云建设中将有更大的应用空间。
总体来看,运营商IT云资源池建设对服务器计算性能、延迟、吞吐、制冷、定制化、分布式部署等方面都提出了更高要求。未来,GPU服务器、定制化整机柜服务器、液冷服务器等新兴服务器技术将快速迭代,为运营商数据中心服务器技术的发展和演进带来新的思路和路径。
无服务器架构(Serverless)是一种将应用与基础设施彻底分离的架构理念,开发人员无需关心基础设施的运维工作,只需专注于应用逻辑的开发,真正实现了弹性伸缩与按需付费。当前各大云服务商和头部互联网企业的内部业务 Serverless 化升级改造已经开始小范围试水;中小企业基于 Serverless 的业务应用也初见端倪,已然可见初具规模的企业级应用,未来可期。Serverless 生态已初具规模,可以预见,Serverless 将成为下一代云计算服务形态的趋势。
在此背景下, 云函数(SCF)、弹性微服务(TEM)和弹性容器服务(EKS)联合其他相关产品,在 2021 年 Serverless 平台技术能力评估中,共同获得国内首批 Serverless 平台技术能力最高先进级认证。
今年 7 月,在中国信息通信研究院、中国通信标准化协会联合主办的 “2021 可信云大会” 上, 腾讯云拿下了 5 项大奖和 10 项可信云认证,在云存储、Serverless 等各细分领域评测中,获得 54 项可信云认证,数量位居中国云厂商第一 。腾讯云云函数(SCF)、弹性微服务(TEM)和弹性容器服务(EKS)深度参与了此次 Serverless 标准制定和实施过程,腾讯云的 Serverless 产品矩阵所提供的平台技术能力也得到了同行的一致认可。
通过本次 Serverless 标准,为大家带来以下几方面关于 Serverless 发展趋势的解读:
当我们把 Serverless 理念和这些产品结合时,Serverless 化的文件系统(CFS)、数据库(TDSQL-C)、网关(API Gatgeway)和中间件(TDMQ)等可大幅度降低 Serverless 应用的开发和运维成本,让开发者真正聚焦于业务的核心能力,把核心的研发力量和IT投资最大化企业的核心差异化竞争力。通过最终的需求驱动,我们可以预见到,各个云服务产品的 Serverless 化或许是未来云计算发展的必经之路。
过去场景化的 FaaS 是 Serverless 较为主流的应用形态,落地案例也以轻量级的站点、SSR 和云上“云上粘合剂”居多。在本次 Serverless 标准制定过程中,对于如何评估企业实际的 Serverless 落地形式大家展开了丰富的讨论和交流。我们认为 Serverless 的应用形态可以是 FaaS、微服务甚至是单体应用;运行环境可以是原生的运行时,也可以是容器镜像;具体落地时,可以用来对外提供 API 接口,也可以用来运行 音视频转码、直播推流 等计算任务,还可以用来完成 站点压测、AI 推理 等任务。
但是现有存量系统的 Serverless 化无法一蹴而就,这是一个不断设计和矫正的过程,应用 Serverless 化也需要经历迁移、优化和云原生架构改造的几个阶段,不同阶段之间需要有一个较为平滑的切换过程,借助于云函数的 Web Function 的功能可以让迁移过程更加平滑,只有实际负载运行在 Serverless 上之后,才能基于生产环境的实际运行结果、采集定量的指标持续进行 Serverless 应用的优化和云原生改造,进一步发挥出 Serverless 的价值。
当构建应用所依赖的服务逐渐向云上迁移的时候,开发环境也进一步“云”化,和本地开发相比也面临一些新的挑战,比如代码生效时间、本地测试、远程调试和离线开发等等,这些都是影响开发者效率的关键环节。在本次的 「Serverless 平台技术能力」标准中,单独把对于工具链的支持作为衡量 Serverless 平台技术能力的重要维度之一。一个成熟的 Serverless 开发者平台需要能够提供比较友好的IDE支持,让开发者使用熟悉的开发工具进行 Serverless 应用的开发,降低开发者的切换成本;除此之外从本地或者远程测试的时候,需要有良好的工具支持,可以方便地发起调用,触发应用执行并快速返回结果,当结果不符合预期的时候也需要有一系列监控、日志等排障手段帮助开发者快速定位问题。
作为 Serverless 社区最流行的一站式开发者工具, Serverless Framework 拥有百万级别的活跃应用程序以及 50000+ 的日下载量。Serverless Framework 早在 2019 年就已经和腾讯达成了大中华区独家的战略合作,和腾讯云的云函数等 Serverless 产品深度集成,同时社区也有大量开箱即用的插件和模板,帮助开发者快速上手 Serverless 应用开发。除此之外,云开发也是国内最大的微信小程序应用开发平台, 四川天府 健康 通、深圳机场智慧航旅服务等小程序应用都是运行在腾讯云的 Serverless 平台之上。
云函数(Serverless Cloud Function,SCF)是腾讯云为企业和开发者们提供的无服务器执行环境,帮助您在无需购买和管理服务器的情况下运行代码。只需编写核心代码并设置代码运行的条件,即可在腾讯云基础设施上弹性、安全地运行代码。
只需简单修改监听端口,即可将目前流行的 Node.js 框架直接部署上云,享受 Serverless 技术带来的免运维、低成本、按需扩缩容的众多优势。
突破传统 FaaS 形态产品的执行时长的限制, 首家支持运行长达 24 小时的长时任务的 FaaS 产品 ,支持体积较大的音视频文件处理、直播推流、数据分析等多种场景。
业界首发支持分配 120GB(122,880MB) 大内存环境,可以更加轻松地处理具有更高内存或更密集计算需求的工作负载,如音视频处理、大数据分析等。
通过 Web Function、容器化镜像等方式平滑把应用迁移至云函数之上,支持托管 H5 页面、API、SSR 应用、小程序等多种形态的应用形式,缩短研发周期,快速收集市场反馈从而加速产品迭代。
无需运维虚拟机或者其他计算集群,利用云函数提供的极致弹性、按量计费等特性,高效、低成本地进行音视频的录制、转码、混流、剪辑和推流等操作,让企业聚焦于音视频处理逻辑本身,从而不断提升内容质量,优化视听体验。
可以通过触发器连接其他的云服务,如对象存储(COS)、日志服务(CLS)等其他服务,当上游的数据发送变化的时候自动触发函数执行计算逻辑,典型的使用场景包括:CDN 刷新和预热、中间件消息转存、文件备份等。
支持定时、消息队列等多种形式触发函数执行输出处理逻辑,进行数据采集、数据清洗、ETL 等数据处理操作,处理之后的数据可以直接存储至下游的数据仓库、业务数据库或者 BI 分析系统等。
腾讯云弹性微服务 (Tencent Cloud Elastic Microservice, TEM) 是面向微服务应用的 Serverless PaaS 平台,实现 Serverless 与微服务的完美结合,应用零改造上云,按量付费,免运维,提供开箱即用的微服务应用托管服务。
弹性微服务拥抱开源,支持 Spring Cloud 等微服务应用零改造上云,提供应用运行托管、服务注册发现、微服务治理、多维度监控等能力,满足 Consul、Eureka 等多种注册中心需求。弹性微服务帮助您创建和管理云资源,并提供秒级弹性伸缩,您可按需使用、按量付费,极大降低资源和运维成本,让您充分聚焦企业核心业务逻辑,助力业务成功。
弹性微服务通过应用托管、服务注册与发现、服务治理、调用链与多维度监控等功能力,为客户提供开箱即用的微服务解决方案。帮助企业用户快速构建微服务应用,大幅提升运维效率,降低服务治理的复杂度与技术门槛,让企业聚焦核心业务本身,助力客户成功。
在业务呈现潮汐特性、突发流量等场景下,容易出现访问响应超时、错误率提升等问题。腾讯云弹性微服务提供秒级弹性伸缩能力,帮助企业客户轻松应对流量高峰。
腾讯云弹性微服务帮助客户持续集成与交付,实现微服务应用快速迭代。从代码开发到应用交付,弹性微服务提供 IDE 插件、灰度发布等多发布策略的能力,助力企业客户快速验证业务价值。
弹性容器服务 EKS(Elastic Kubernetes Service)是腾讯云容器团队的推出的 Serverless 化 Kubernetes 服务 ,无须用户购买节点,直接部署工作负载。其完全兼容原生 Kubernetes,支持使用原生方式购买及管理资源,按照容器真实使用的资源量计费。
无论是自建 K8s 集群,还是腾讯云 TKE 托管集群,只要网络互通,即可通过部署 EKS 虚拟节点的方式,几乎无成本扩展集群资源池。在扩容 Pod 时可自动或手动快速将 Pod 调度到「虚拟节点」对应的腾讯云公有云资源上。
相比传统的通过扩缩服务器去调度资源(流程重,耗时久),虚拟节点提供一种直接调度 Pod 的能力,可以更快、更高效的弹性。
使用弹性容器服务 EKS 来运行微服务,免除用户对计算节点的运维工作。服务可根据负载情况自动伸缩,使用最合理的资源量来承载应用,降低资源使用成本。
使用弹性容器服务 EKS 运行离线计算任务,只需准备容器镜像,即可快速部署任务负载。另外,弹性容器服务 EKS 仅收取任务真实运行时间所使用算力的费用,任务结束 Pod 自动释放即结束计费。
弹性容器服务 EKS 支持使用 CPU、GPU 以及 vGPU 来运行在线推理服务,丰富的资源规格和弹性伸缩的负载,使运行服务更高效、更经济。
立即体验腾讯云 Serverless Demo,领取 Serverless 新用户礼包 腾讯云 Serverless 新手体验
计算机的发展趋势如下:1、巨型化,指计算机具有极高的运算速度、大容量的存布空间;2、微型化,大规模及超大规模集成电路发展的必然;3、网络化,计算机技术和通信技术紧密结合的产物;4、智能化,让计算机能够模拟人类的智力活动。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)