英伟达CPU问世:ARM架构,对比x86实现十倍性能提升

英伟达CPU问世:ARM架构,对比x86实现十倍性能提升,第1张

机器之心报道

机器之心编辑部

「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。

4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:

如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。

「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。

英伟达也要做 CPU 了

Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。

「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。

Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。

英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。

目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。

据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。

基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0.537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。

美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。

GPU+CPU+DPU,三管齐下

「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」

除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。

黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。

对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」

最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。

英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。

Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。

与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。

不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。

英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。

「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。

英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。

SegmentFault 思否报道丨公众号:SegmentFault

是他,还是那个男人,那个熟悉的皮夹克。

5 月 14 日 晚,黄仁勋在厨房召开了英伟达 GTC 2020 线上发布会。由于新冠病毒疫情影响,英伟达原计划的现场活动被迫取消,定于 3 月 24 日通过媒体发布的新闻稿也未见踪影。千呼万唤中,黄仁勋终于在烤箱前和大家见面了。

本届 GTC 从预热开始就不走寻常路,黄仁勋在大会前一天晒出了自己从烤箱里拿出了 全新的安培(Ampere)架构 GPU NVIDIA A100

令人颇感意外的是,虽然无法举办线下活动,英伟达竟然连线上直播都懒得办,直接播放了黄仁勋在自家厨房里录制的视频完成了新品发布。果然是手里有「硬货」就不在乎形式了。

英伟达的首款安培架构 GPU 可以算「史上最强」了,基于 7nm 工艺制程,拥有 540 亿晶体管,面积为826mm²,与 Volta 架构相比性能提升了 20 倍 ,既可以做训练也可以做推理。

NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代码的情况下将 FP32 精度下的 AI 性能提高 20倍,达到19.5万亿次/秒

多实例 GPU-MG 可将单个 A100 GPU 分割为 7 个独立的 GPU,根据任务不同提供不同的计算力,实现最佳利用率和投资回报率的最大化。

NVIDIA A100 新的效率技术利用了AI数学固有的稀疏性,优化之后性能提升了一倍。

英伟达将 NVIDIA A100 的特性总结为以下 5 点:

黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃, 集 AI 训练和推理于一身,并且其性能相比于前代产品提升了高达 20 倍 。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100 将在提高吞吐量的同时,降低数据中心的成本。”

NVIDIA A100 是第一个基于 NVIDIA 安培架构的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它还可用于数据分析,科学计算和云图形,并已全面投产并交付给全球客户。

全球 18 家领先的服务提供商和系统构建商正在将 NVIDIA A100 整合到他们的服务和产品中,其中包括阿里云、AWS、百度云、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。

黄仁勋还介绍了基于 NVIDIA A100 的第三代 AI 系统 DGX-A100 AI。DGX-A100 AI 是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器 ,每台 DGX A100 可以分割为多达 56 个独立运行的实例,还集合了 8 个 NVIDIA A100 GPU,每个 GPU 均支持 12 路 NVLink 互连总线。

据了解,与其他高端 CPU 服务器相比,DGXA100 的 AI 计算性能高 150 倍、内存带宽高 40 倍、IO 带宽高 40 倍。

黄仁勋说:“AI已经被应用到云计算、 汽车 、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”

如此强大的 DGX-A100 AI 售价自然也不便宜,标价 19.9 万美元,约合人民币 141 万元。

此外,黄仁勋还提到了英伟达新一代 DGXSuper POD 集群,由 140 台DGXA100系统组成,AI算力达 700 Petaflops,相当于数千台服务器的性能

据了解,首批 DGXSuper POD 将部署在美国能源部阿贡国家实验室,用于新冠病毒疫情相关的研究。

除了以上两款重磅产品,黄仁勋还宣布推出了 NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个 100 TB 数据集推荐系统所需的时间从四天减少到 20 分钟。

英伟达此次还推出了众多 AI 领域相关产品,包括 以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 边缘 AI 平台和一系列软件更新扩展。

1.以太网智能网卡 Mellanox ConnectX-6 Lx SmartNIC

ConnectX-6 Lx 是业界首个为 25Gb/s 优化的安全智能网卡,可提供两个 25Gb/s 端口或一个 50Gb/s 端口。

2.EGX 边缘 AI 平台

EGX Edge AI 平台是首款基于 NVIDIA 安培架构的边缘 AI 产品,可接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存进行 AI 或 5G 信号处理。

3.Spark 3.0

英伟达还宣布在 Spark 3.0 上支持 NVIDIA GPU 加速,基于 RAPIDS 的 Spark 3.0,打破了提取,转换和加载数据的性能基准。它已经帮助 Adobe Intelligent Services 将计算成本降低了90%。

4.NVIDIA Jarvis

黄仁勋在发布会中详细介绍了 NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥英伟达 AI 平台的强大功能,创建实时多模态对话式 AI。

5.Misty 交互 AI

现场演示中,一个名为 Misty 的 AI系统展示了实时理解并回答一系列有关天气的复杂问题的交互过程。

自动驾驶方面,英伟达也将安培架构嵌入了新的 NVIDIA DRIVE 平台。据了解,小马智行、法拉第未来等自动驾驶企业已宣布采用 NVIDIA DRIVE AGX 计算平台。

英伟达的 NVIDIA Isaac 软件定义的机器人平台还将用于宝马集团工厂。英伟达机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健各个行业。

英伟达这场时隔 3 年的发布会可谓诚意满满,首次推出的安培架构给足了惊喜,性能提升 20 倍的 NVIDIA A100 GPU 可谓性能飞跃。

虽然发布会并不是现场直播,但依旧爆点十足。一台就比千台强的 DGX-A100 AI 也印证了黄仁勋那就经典名言“买的越多,赚的越多”。英伟达的 AI 解决方案已经覆盖了各行各业,强大的 AI 生态正在形成。

中国工程院院士倪光南曾表示:「芯片设计门槛极高,只有极少数企业能够承受中高端芯片研发成本,这也制约了芯片领域创新。」

英伟达在本届 GTC 上推出的安培架构和基于此的一系列 AI 平台无一部显示了一个 AI 芯片巨头的实力,又一次树立了性能标杆。

根据 Gartner 的预测数据 ,未来 5 年内全球人工智能芯片市场规模将呈飙升趋势 ,自 2018 年的 42.7 亿美元 ,升高至 343 亿美元 ,增长已超过 7 倍,可见 AI 芯片市场有较大增长空间。

尽管与西方发达国家相比,中国的 AI 芯片研发还存在一定差距,但过去两年中,中国 AI 芯片初创企业已获得了数亿美元的资金。华为等公司也开发了令人印象深刻的芯片设计。

但芯片开发极具复杂性,中国人才的短缺以及缺乏多家全球销售排名前 15 位的中国半导体公司的情况表明,中国仍需要取得重大进展,才能在半导体领域与美国匹敌。

聊起昂达,相信多数玩家都会对这家综合性极强的厂商有印象,无论是早期的随身播放器(MP3/MP4)和平板电脑,还是不忘初心一直在布局的PC配件,昂达出品向来以极高的性价比广受年轻消费者关注。近期,随着显卡“矿潮”有缓和甚至褪去迹象,昂达也悄然上市了自家首款RTX30系列甜点卡——昂达RTX3060神盾,这款显卡是否将继承昂达一贯的超高性价比作风?欲知详情这篇评测不容错过。

在开始前先不能免俗地介绍一下RTX3060,目前该型号显卡的核心代号是GA106-300和GA106-302,前者是较早前推出的版本,后者是锁了哈希算力的版本,除此之外两者并没有太大区别。

架构方面,有关注DIY的小伙伴应该都知道,目前已经上架的RTX30系列均采用了安培架构,该架构继承了图灵架构的特点,核心主要由通用核心、光追核心和张量核心三个模块组成,每个模块各司其职,于上代图灵相比,安培架构采用了第二代光追核心和第三代张量核心,相对应的光追性能和机器学习运算也有了提升。

作为英伟达普及光线追踪的甜点显卡,RTX3060的GA106核心拥有3584个CUDA核心、28组二代光追核心单元以及112组第三代张量核心单元、6组内存控制器提供了192bit位宽、显存类型为GDDR6并拥有12GB显存容量。

一直有关注DIY硬件圈的小伙伴应该已经十分熟悉RTX3060以及其内在GA106核心的相关参数了,但核心信息只是基础,昂达到底能将这枚核心发挥到什么水平呢,下面进入评测正题。

外观篇:

昂达RTX3060神盾显卡采用了三风扇散热设计,散热器的全黑外壳线条感十足,外壳边缘位置经过特殊处理,做出了碳纤纹理的质感,让黑色的外壳在低调之余也透露出庄重的气质。凭RTX3060良好的能耗比,即便是单风扇散热器也能轻松压制,更别提规格更高的三风扇散热器了,相信该卡的温控状况是值得信赖的。

显卡的背板是正面散热器的艺术延展,以黑灰为主色调的阳极铝背板与正面散热器的设计风格是一脉相承的,既保证了显卡外观的一体感,也能兼顾散热。

昂达RTX3060神盾上的散热风扇是半透明的,隔着叶片能隐约看到散热器的鳍片,最终呈现出来的独特观感让人过目难忘,三把11扇叶的9cm滚珠风扇在静音和散热之间做到平衡。

正如前文所述,RTX3060本身具有不错的能耗比,单8Pin电源接口已经足够为显卡提供充沛的功率输入了。

由于散热器的“堆料”设计,该卡达到了2.5槽高度,在同为三风扇的显卡产品中这属于比较常见的厚度。

眼尖的小伙伴在显卡上电前应该已经发现,该卡的散热器及背板上并没有灯光设备,相信对RGB系统无爱的小伙伴会比较乐意看到这类显卡。

性能篇:

相信性能跑分才是玩家们真正关心的内容,在进行跑分测试前先介绍下本次评测所使用的平台:

酷睿i9-11900K搭配华硕ROGSTRIXZ590-AGAMINGWIFI的组合应该是时下顶级平台,硬盘、内存以及电源也都属于当下的高端硬件范畴,诚然这套配置应该会高于多数搭配甜点显卡使用的家用PC,但也只有尽量的高配电脑才能减少其他硬件带来的瓶颈,将这块显卡的潜力尽可能地全力压榨出来。

理论性能跑分:

“循例”先进行理论性能测试,我们选择玩家“最爱 游戏 ”——3DMark作为参考测试工具,先发一图流结论:昂达RTX3060神盾3DMark在三项FireStrike测试中的得分分别为20981、10067、5006,两项TimeSpy的得分分别为8517、4005,PortRoyal的得分为5034,总的来说得分情况属于时下主流RTX3060的典型,下面逐个展开讲。

3DMark的FireStrike得分是经典的理论性能参考了,对于拥有多个运算单元的安培架构显卡而言,该项性能跑分主要考核的是通用运算单元的性能。可以看到昂达RTX3060神盾在运行跑分软件时GPU最高频率在1934MHz左右,内存频率为1875MHz左右。

作为参考这里将RTX3070FE以及GTX1060FE的性能也加入到表格上,可以看到昂达RTX3060神盾的得分比帕斯卡甜点、提升肉眼可见,提升达到70%,实际上其通用性能已经媲美帕斯卡旗舰GTX1080。

TimeSpy/TimeSpyExtreme是一项采用了DX12API的显卡性能测试单元,如今DX12API在新发行的 游戏 大作中已经完全普及,该测试作为显卡运行在DX12模式下, 游戏 体验的参考。在运行基准测试时,昂达RTX3060神盾的GPU频率达1866MHz,显存频率最高约为1875MHz。

同样加入了RTX3070FE以及GTX1060FE作为参考,在此项跑分上,昂达RTX3060神盾依然保持了不错的水准,两项得分均比RTX2060FE提升了100%以上。

接着是PortRoyal,这是3DMark专为考核显卡光线追踪性能而制定的测试单元,也是目前少有的光追性能测试参考基准。同样引入GTX1060FE以及RTX3070FE作为参考,经过了图灵的 探索 期,再回过头看安培架构与帕斯卡架构的对比,安培的架构优势十分明显。

在该项测试的得分方面,昂达RTX3060神盾的光追性能已经是GTX1060FE的五倍有余!。相比不带光追核心的老显卡,旨在普及光追的RTX3060系列的纸面性能参数已经有巨大提升,但更重要的是开启光追后观感提升给 游戏 沉浸感带来的增强,这是跑分数据所不能体现的。

游戏 性能跑分:

玩家最关心的 游戏 表现来了,我们选择了《荒野大镖客2》、《全境封锁2》、《刺客信条:英灵殿》、《古墓丽影:暗影》、《极限地平线4》、《尘埃5》、《战争机器5》、《看门狗:军团》作为 游戏 测试参考对象,鉴于昂达RTX3060神盾的强大性能,所有 游戏 均采用2K分辨率,下面直接上懒人一览表格。

实测结果所有 游戏 均能运行在50FPS以上,除了《荒野大镖客2》、《刺客信条:英灵殿》以及《尘埃5》这3款硬件杀手外,其他 游戏 的平均帧率都在60FPS以上,要知道这是所有画质设置基本拉满,在2K分辨率下跑出来的数据,考虑到2K显示器的普及率以及实际玩 游戏 时可以适当调低画质享受更流畅的画面,昂达RTX3060神盾作为2K入门 游戏 显卡是非常合适了。

温度表现:

在进行完以上理论性能跑分以及 游戏 性能测试后,就以烤机测试作为本次实测篇的尾声吧,使用“甜甜圈”Geeks3DFurMark进行烤机测试。

可以看出15分钟的烤鸡过程显卡的最高频率为1680MHz/s,全程均能维持峰值状态,最高温度为67 ,大部分时间维持在65 ,昂达标配的三风扇散热器搭配安培架构良好的功耗表现,两者结合的昂达RTX3060神盾在温控方面是很给力的。

拆解篇:

跑完分可以“肆意”地对显卡进行拆解了,先将散热器与PCB分离,可以看到这个三风扇散热器的做工是比较扎实的,厚重的一体式散热鳍片搭配5热管设计,已然属于越级式规格了。

核心与散热器的接触部分采用了导热底座设计,相比于热管直触式对工艺有着严苛的要求,导热底座式的散热设计与核心的接触面积相对稳定得多,也更有助于散热器将核心的热量尽快排走。

穿在散热鳍片上的导热管均经过镀镍处理,昂达对该卡的细节处理是比较到位的。

掀起散热器就能看到该卡的PCB全貌,可以清晰地看到位于正中央的GA106-302核心,这也预示着此卡是英伟达用于限制 游戏 显卡用于虚拟货币运算而推出的低哈希算力版本。对于 游戏 玩家来说,这意味着选择该系列就不用担心会买到经过“锻炼”的版本了。

该卡采用了4+2相供电,其中4相用于核心供电,2相用于显存供电。

位于核心周边的6枚大IC是GDDR6芯片,型号为三星K4ZAF325BM-HC16,理论速率可达16Gbps,单枚容量为16Gb即2GB,6枚组成了12GB超大显存。

总结:

昂达显卡在DIY圈一直是个特殊的存在,他不像传统大牌利用各种手段只为给显卡创造附加价值从而产生溢价,但又不至于一味地为了降低成本而向质量妥协,昂达总是将目光放在最走量的型号上,然后使用最中规中矩的设计和用料为热爱 游戏 的玩家创造极高性价比的产品,比如昂达GTX960神盾、昂达GTX1060神盾以及昂达GTX1660神盾,这些都称得上是昂达的高性价比代表作。相信若不是受不可抗力影响,昂达的RTX30系列显卡会更早地到来。

无论如何,昂达RTX3060神盾终究是来到玩家们面前了,这款显卡继承了历代昂达甜点卡的特点——做工、散热器中规中矩、性能不弱于其他非公显卡,用于2K 游戏 入门或者1080P高帧率 游戏 都是绰绰有余了,家中准备升级高分辨率电竞屏,或者想要尝鲜光线追踪技术带来的真实画质的小伙伴可以优先考虑RTX3060系列显卡。按照昂达一贯的高性价比作风,这款安培时代的“甜点中甜点”应该不会让玩家失望。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/489534.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-13
下一篇2023-06-13

发表评论

登录后才能评论

评论列表(0条)

    保存