苹果英伟达展开竞赛 800亿个晶体管“最强”GPU芯片来了-

苹果英伟达展开竞赛 800亿个晶体管“最强”GPU芯片来了-,第1张

英伟达同时推出了面向数据中心的一款超级芯片及一款AI系统,并同时更换了数据中心平台的架构,用新的Hopper架构取代了刚使用两年的Ampere架构。这种更新换代的节奏在近几年来明显加快,反映英伟达不惜斥下研发重金维持竞争力。数据中心是英伟达一项支柱性业务,在2021财年(截至2021年1月底)、2022财年(截至2022年1月底)分别给英伟达带来了66.96亿、106.13亿美元收入,为英伟达贡献了总收入约40%。

不久之前,苹果在3月8日春季发布会上发布的新款自研芯片震惊了市场。当时,这款新款个人电脑用芯片M1 Max被苹果公司称之为“迄今最强芯片”,这挑战了市场专业芯片研发商的神经。半个月后在3月22日,英伟达在年度技术大会上立刻推出了“更强”的芯片H100,似乎将3月的芯片竞赛推向了又一个高峰。

H100在数据上直接面对了M1 Max的挑战。M1 Max内部集成570亿个晶体管,H100就集成了800亿个。M1 Max采用了台积电的5纳米工艺,H100则采用了更胜一筹的台积电4纳米工艺。M1 Max面向个人电脑市场,H100则面向更专业级别、企业级别的数据中心市场。

更夸张的是,两家公司还在“连接术”上展开了竞争。在3月8日,苹果还推出了一种颇为创新的芯片连接方法,该公司通过先进封装的形式,将两块M1 Max“拼接”在一起,形成了一块包含1140亿个晶体管的超级芯片M1 Ultra芯片。这种拼接使单个芯片的内含晶体管数达到了1140亿个,惹来市场一阵惊呼,一度被认为很难逾越的一个技术门槛。

尽管如此,英伟达为了甩开苹果,卯足了劲进行新一代处理器升级,于3月22日也推出了一套“连接术”NVLink-C2C。英伟达指出,通过先进封装技术,NVLink-C2C可以将不同芯片组(Chiplet)、不同裸晶(die)进行拼接,有利于不同的GPU、CPU、DPU、NIC和SoC之间形成互联。

除了和苹果展开竞赛,英伟达本次的新品发布会,将“火力”聚焦在了数据中心市场。英伟达创始人、CEO黄仁勋认为,数据中心对于人工智能和诸多科学研究十分重要,因此有必要加速研发。

使用数据中心的应用端市场,不少从事AI语言模型、深度推荐系统、基因组学、复杂数字孪生等工作,如何令数据处理更高效、更安全、更低耗,无疑成为抢占市场的核心竞争力。

英伟达透露,目前有不少数据中心系统制造商有意采用H100,包括源讯、BOXX Technologies、思科、戴尔、富士通、技嘉、新华三、慧与(HPE)、浪潮、联想、宁畅和超微。此外,云服务提供商也将提供基于H100的实例,包括阿里云、AWS、百度云、谷歌云、微软Azure、甲骨文云、腾讯云和火山引擎等。

基于H100,英伟达又推出了新款的AI系统,即第四代DGX系统。第四代DGX系统将配备8块H100,英伟达称其将比上一代系统性能提高6倍。值得留意的是,这一代DGX系统仍然将使用基于英特尔x86的双CPU,这意味着系统能和用户的存储设备相结合,能更灵活地用于各种规模的AI计算。

英伟达还宣称,将配备576台DGX H100系统去搭建一台命名为“Eos”的超级计算机,这将比当前全球运行速度最快的超级计算机日本Fugaku快4倍。

最后,英伟达宣布推出数据中心专属“超级芯片”Grace CPU,并指出其内存带宽和能效,将能达到当前先进服务器芯片的两倍。这款芯片由两个 CPU 芯片组成,它们之间通过NVLink-C2C互连在一起。

在3月18日公布的截至2022年1月底2022财年业绩中,英伟达披露称,数据中心业务在年度总收入中占据39.43%,达到106.13亿美元。承担如此支柱角色,数据中心是英伟达不得不全力竞争的关键领域。

更多内容请下载21 财经 APP

黄仁勋终于公布了NVIDIA新一代架构与核心,当然这次是面向HPC高性能计算、AI人工智能的“Hopper”,对应核心编号“GH100”,同时发布的还有基于新核心的加速计算卡“H100”、AI计算系统“DGX H100”。

与传闻不同,GH100核心采用的其实是台积电目前最先进的4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。

完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计18432个。

显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。

Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。

扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0,相比A100也多了一半。整卡对外总带宽4.9TB/s。

性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。

H100计算卡采用SXM、PCIe 5.0两种形态,其中后者功耗高达史无前例的700W,相比A100多了整整300W。

按惯例也不是满血,GPC虽然还是8组,但是SXM5版本只开启了62组TPC(魅族GPC屏蔽一组TPC)、128组SM,总计有15872个CUDA核心、528个Tensor核心、50MB二级缓存。

PCIe 5.0版本更是只有57组TPC,SM虽然还是128组,但是CUDA核心只有14952个,Tensor核心只有456个。

DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器?),拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

性能方面,AI算力32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。

PCIe 5.0版本的性能基本都再下降20%。

同时配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息

DGX H100是最小的计算单元,为了扩展,这一次NVIDIA还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。

这么一套系统内,还有20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。

系统合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。

云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/529521.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-23
下一篇2023-06-23

发表评论

登录后才能评论

评论列表(0条)

    保存