NVIDIA发布搭载GPU的ARM服务器参考平台

NVIDIA发布搭载GPU的ARM服务器参考平台,第1张

【资讯】2019 年 1 1 月 1 8 日, NVIDIA 于今日发布一款参考设计平台,使企业能够快速构建 GPU 加速的 Arm 服务器 , 以满足日益多样化的科学和工业应用需求。 这 开辟 了 高性能计算的新纪元 。  

NVIDIA 创始人兼首席执行官黄仁勋在 2 019 国际超级计算大会( SC19 )上宣布推出这款参考设计平台。该平台由硬件和软件基础模块组成,能够满足高性能计算( HPC )社区对于 类型 更加多样化的 C PU 架构日益增长的需求。通过该平台,超级计算中心、超大型云运营商和企业能够将 NVIDIA 加速计算平台的优势与最新的 Arm 服务器平台相结合。

为了构建 这一参考 平台, NVIDIA 与 Arm 及其生态合作伙伴(包括 Ampere 、富士通 和 Marvell ) 联手,以 确保 NVIDIA   GPU 与 Arm 处理器 之间 的 无缝协作 。 该参考平台还得益于 与 HPE 旗下公司 Cray 和 HPE 这 两家早期采用 Arm 服务器的供应商之间的紧密合作。此外,许多高性能计算软件公司已使用 NVIDIA CUDA-X 库 来构建可在 Arm 服务器上运行 、 并可 通过 GPU 实现的管理和监控工具。

黄仁勋表示:“高性能计算正在崛起。机器学习和 AI 领域的突破正在重新定义科学研究方法 , 并且可能带来激动人心的新架构。从超大规模云到百万兆级超级计算, NVIDIA GPU 与 A RM 的组合让创新者们能够为不断增加的新应用创建系统。”

Arm IP 产品部门总裁 Rene Haas 表示:“  Arm 正在与生态合作伙伴一 同努力, 为百万兆级的 Arm 系统级芯片提供前所未有的性能和效率。我们与 NVIDIA 合作,将 CUDA 加速带入 到 Arm 架构当中 , 这对于高性能计算社区来说, 具有 里程碑 式的意义 。为了应对全球最复杂的研究 , 挑战并推动嵌入式系统、汽车和边缘细分市场的进一步发展,高性能计算社区已经在部署 Arm 技术。”

今年早些时候, NVIDIA 宣布 为 A rm 带来 C UDA-X 软件平台 。 NVIDIA 此次发布这一参考平台正是对此前承诺的兑现。   根据这一承诺, NVIDIA 正在提供 其 A rm 兼容软件开发套件 的预览版本。该版本包含 NVIDIA CUDA-X 库和加速计算开发工具。

联合整个高性能计算生态中的合作伙伴

除了 使 自己的软件 兼容 Arm 之外, NVIDIA 还与   GROMACS 、 LAMMPS 、 MILC 、 NAMD 、 Quantum  Espresso 和 Relion 等 领先的 高性能计算 应用开发 商密切 合作 , 为 A RM 提供 GPU 加速 的 应 程序 用。 为了让 Arm 平台上的应用实现 GPU 加速, NVIDIA 及其高性能计算应用生态合作伙伴编译了大量代码。

为了构建 Arm 生态, NVIDIA 与领先的 Linux 发行商 Canonical 、 Red Hat,   Inc. 、 SUSE , 以及业内领先的高性能计算基础工具供应商 展开 合作。

几家世界级的超级计算中心已开始测试 GPU 加速 Arm 计算系统,其中包括美国的橡树岭国家实验室和桑迪亚国家实验室、英国布里斯托大学以及日本理化学研究所。

来自生态合作伙伴的支持

“  Ampere 非常高兴能够与 NVIDIA 合作开发 GPU 加速解决方案。该解决方案 将 与高性能、高能效 Ampere 的 服务器处理器实现无缝协作。我们的新产品将使我们的客户能够灵活选择最佳的 NVIDIA GPU 加速器,从而高效地运行云、边缘等要求极高的工作负载。”

——   Ampere Computing 董事长兼首席执行官, Renee James

“很高兴看到 NVIDIA 能够如此迅速地为 Arm 服务器带来 CUDA 和 OpenACC 。我们十分希望能够与 NVIDIA 及 其他公司开展密切的合作,在这一架构上编译、分析和调试加速应用。目前,我们已在 4096 核 Arm 系统上证明了这一合作所带来的优势。”

——   EPCC 主任, Mark   Parsons 教授

“对于正在不断发展的 Arm 生态而言, NVIDIA 是一个备受欢迎且重要的生态成员。富士通相信,随着我们迈入新的计算时代, NVIDIA 将扩展 Arm 生态系统 , 并保证客户在高性能计算和数据科学 领域 ,尤其是人工智能领域有更多的选择。”

——   富士通企业执行官兼服务平台业务部副主管, Takeshi  Horie

“通过我们与 NVIDIA 的密切合作,部署 Marvell ThunderX2 服务器的客户现在可以使用全套 NVIDIA GPU 加速软件。这对于 Arm 生态系统的加速计算可用性来说 , 是一座重要的里程碑。我们将 继续 一同 将能效提高到一个新的水平,同时为百万兆级时代的众多超级计算和 AI 应用提供出众的性能。”

—— Marvell Semiconductor, Inc. 副总裁兼服务器处理器业务部总经理 Gopal Hegde

“在 HPE 、 Marvell 和 NVIDIA 的帮助下,橡树岭国家实验室( Oak Ridge National Laboratory )成功地完成了所负责的工作,迅速升级了我们的 Arm 测试台系统,整合了性能测试并取得了良好的成果。在短短两周内,我们编译并正确运行了约八个领先级应用 程序 ,三个重要的社区库 , 以及常被用于评估 Arm 高性能计算生态的基准套件。根据早期结 果可以看出,这个由 Arm 主导的加速计算生态 的功能 似乎 和 POWER 以及 x86 环境 差不多 。对于一个 Arm 内的加速计算生态而言,这是一个了不起的开始。”

——橡树岭国家实验室国家计算科学中心科学主任, Jack C. Wells

“我们与 NVIDIA 已经合作了很长时间。我们很高兴地看到, N VIDIA 实现了自己的承诺,为 Arm 高性能计算社区带来了领先的 CUDA-X 软件堆栈和生态系统。我们已经开始在通过 NVIDIA GPU 加速的 Arm 系统上评估理化学研究所的代码,我们 认为 它将为日本高性能计算和 AI 融合工作负载带来新一轮的创新。”

——日本理化学研究所所长, Satoshi Matsuoka

“由于 NVIDIA 为 Arm 主机 CPU 提供了新的支持,因此现在可以直接使用 Kokkos 和 LAMMPS 。这一结果达到了我们的期望,并且让我们可以借鉴在带有 x86   CPU 的系统中部署 NVIDIA GPU 的经验。”

——桑迪亚国家实验室主要技术人员, Christian Trott

“  NVIDIA 的 Arm 软件堆栈的确可以直接使用。我们之前就已大量使用 Arm 和 NVIDIA 这两个独立的平台,因此我们非常高兴这两者能够组合在一起。相比于我们之前尝试过的 x86 平台, NVIDIA 为 Arm   提供的 GPU 驱动器性能非常之好。能够在如此短的时间内取得这一成果,的确令人惊叹。”

—— 布里斯托大学高性能计算教授 , Simon McIntosh-Smith

云手机和普通手机相比在某些应用场景中会具有一定的优势,比如游戏托管、推广营销等,很多人使用云手机的主要原因就是需要大量的手机进行业务操作,这时候云手机会比较好用,因为可以集中管理操作,一键刷新机型,并且不用担心内存不足和手机故障。但是在日常使用过程中,还是普通手机比较方便,尤其是打电话、拍照等常见的操作,普通手机解锁后可以立即完成,而云手机还需要通过虚拟摄像头等较为复杂的操作才能实现。

云手机的主要优势就是能够节约购机成本和方便同步操作,通常有需求的用户都会大批量租赁,虽然也有人租赁一两台云手机进行软件双开或者托管游戏,但是租用时间通常不会太长。云手机好不好用还和ARM服务器部署、网络等有很大关系,深圳市云端未来科技有限公司在云手机业务方面有着成熟的服务经验,通过ARM集群服务器构建的IDC产品和移动应用服务云,能够快速为客户虚拟大量高性能云手机,并提供应用系统开发和平台运营服务。

ARM芯片的发展历程1.1ARM芯片概述ARM产品的分类方式有几种,可以按照冯若依曼结构和哈佛结构分类,也可以按照ARMv1、ARMv2、ARMv3、ARMv4等构架来分类。

然而从1983年开始,ARM内核共有ARM1、ARM2、ARM6、ARM7、ARM9、ARM10、ARM11和Cortex以及对应的修改版或增强版组成,越靠后的内核,初始频率越高、架构越先进,功能也越强。目前移动智能终端中常见的为ARM11和Cortex内核。1.2ARM系列芯片ARM7微处理器系列1994年推出,使用范围最广的32位嵌入式处理器系列。0.9MIPS/MHz的三级流水线和冯诺依曼结构。ARM7系列包括ARM7TDMI、ARM7TDMI-S、带有高速缓存处理器宏单元的ARM720T。该系列处理器提供Thumb16位压缩指令集和EmbededICE软件调试方式,适用于更大规模的SoC设计中。ARM7TDMI基于ARM体系结构V4版本,是目前低端的ARM核。ARM9微处理器系列ARM9采用哈佛体系结构,指令和数据分属不同的总线,可以并行处理。在流水线上,ARM7是三级流水线,ARM9是五级流水线。由于结构不同,ARM7的执行效率低于ARM9。基于Arm9内核的处理器,是具有低功耗,高效率的开发平台。广泛用于各种嵌入式产品。它主要应用于音频技术以及高档工业级产品,可以跑Linux以及Wince等高级嵌入式系统,可以进行界面设计,做出人性化的人机互动界面,像一些网络产品和手机产品。ARM9E微处理器系列ARM9E中的E就是EnhanceinstrcTIons,意思是增强型DSP指令,说明了ARM9E其实就是ARM9就一个扩充,变种。ARM9E系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、DSP、Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。ARM9E系列微处理器提供了增强的DSP处理能力,很适合于那些需要同时使用DSP和微控制器的应用场合。ARM10E微处理器系列ARM10E系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、DSP、Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。ARM9E系列微处理器提供了增强的DSP处理能力,很适合于那些需要同时使用DSP和微控制器的应用场合。ARM10E与ARM9E区别在于,ARM10E使用哈佛结构,6级流水线,主频最高可达325MHz,1.35MIPS/HZ。ARM11微处理器系列ARM公司近年推出的新一代RISC处理器,它是ARM新指令架构ARMv6的第一代设计实现。该系列主要有ARM1136J,ARM1156T2和ARM1176JZ三个内核型号,分别针对不同应用领域。ARM11的媒体处理能力和低功耗特点,特别适用于无线和消费类电子产品;其高数据吞吐量和高性能的结合非常适合网络处理应用;另外,也在实时性能和浮点处理等方面ARM11可以满足汽车电子应用的需求。1.3Cortex系列ARM公司在经典处理器ARM11以后的产品改用Cortex命名,并分成A、R和M三类,旨在为各种不同的市场提供服务。ARMCortex-A系列应用型处理器可向托管丰富OS平台和用户应用程序的设备提供全方位的解决方案,从超低成本手机、智能手机、移动计算平台、数字电视和机顶盒到企业网络、打印机和服务器解决方案。ARM在Cortex-A系列处理器大体上可以排序为:Cortex-A57处理器、Cortex-A53处理器、Cortex-A15处理器、Cortex-A9处理器、Cortex-A8处理器、Cortex-A7处理器、Cortex-A5处理器、ARM11处理器、ARM9处理器、ARM7处理器,再往低的部分手机产品中基本已经不再使用。ARMCortex-R实时处理器为要求可靠性、高可用性、容错功能、可维护性和实时响应的嵌入式系统提供高性能计算解决方案。Cortex-R系列处理器通过已经在数以亿计的产品中得到验证的成熟技术提供极快的上市速度,并利用广泛的ARM生态系统、全球和本地语言以及全天候的支持服务,保证快速、低风险的产品开发。ARMCortex-M处理器系列是一系列可向上兼容的高能效、易于使用的处理器,这些处理器旨在帮助开发人员满足将来的嵌入式应用的需要。这些需要包括以更低的成本提供更多功能、不断增加连接、改善代码重用和提高能效。Cortex-M系列针对成本和功耗敏感的MCU和终端应用(如智能测量、人机接口设备、汽车和工业控制系统、大型家用电器、消费性产品和医疗器械)的混合信号设备进行过优化。信号设备进行过优化。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/347086.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-07
下一篇2023-05-07

发表评论

登录后才能评论

评论列表(0条)

    保存