独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!

独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!,第1张

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)

AMD发布5纳米Zen4锐龙7000芯片

AMD发布5纳米Zen4锐龙7000芯片,新锐龙处理器Ryzen 7000系列,采用台积电5纳米工艺Zen 4架构打造,该芯片预计将于2022年秋季面市。AMD发布5纳米Zen4锐龙7000芯片。

AMD发布5纳米Zen4锐龙7000芯片1

5月23日,AMD在台北电脑展举办发布会,正式为大家带来了锐龙7000系列处理器。其中包括了部分处理器的参数,实机DEMO,以及PCIe 5.0通道数,并且也公布了为锐龙7000系列处理器所准备的三款芯片组。

继去年英特尔公布了其最新的12代酷睿处理器以来,大家一直期待的AMD锐龙7000系列将会如何应对其竞争对手,而根据这次公布的内容,就可以看出AMD在这一代处理器对决中迸发出的野心。

这次公布的锐龙7000系列处理器,这一代可以说是锐龙近5年来最大的升级。锐龙7000系列处理器将采用5nm工艺制造,支持DDR5内存、PCIe 5.0总线,并采用新的AM5封装接口。

从内部结构来看,还是CCD计算小芯片、IOD输入输出小芯片的经典组合,其分别基于台积电5nm和6nm工艺,也代表了是第一款5nm PC处理器核心。

IOD部分则首次加入GPU图形核心,采用了最新的RDNA 2架构,其中进一步的优化了功耗管理,增加了对DDR5、PCIe 5.0等最新内存和I/O技术的支持。也正是因为加了这么多内容,可以看出IOD在面积上是大了不少。

Zen4架构将为锐龙7000处理器带来极大的性能提升,每个核心的二级缓存对比上一代将翻倍,能达到1MB,凭借更高的每周期指令数(IPC),其单线程性能直接提升15%以上,且频率能超过5GHz,在官方提供的演示中甚至达到了5.5GHz以上,相较上一代提升明显。

此外,Zen4处理器还增加了AI加速指令集,似乎可以更好的提升和帮助针对神经网络和机器学习等硬件加速的科学技术。

锐龙7000将成为首款使用AMD新AM5平台的处理器系列。AM5传承了许多AM4平台的设计原则,以最大限度提高AMD处理器的.性能,并能同时纳入现代化I/O和接口。其采用了1718引脚的LGA型插槽,支持PCIe 5.0和DDR5,同时兼容AM4时期的散热器。

AMD也公布了将与多家供应商一起共同努力打造PCIe 5.0生态系统,未来影驰也会相应的推出AM5平台,为选择锐龙7000的朋友们提供更多的选择。

可以看出在未来,DDR5内存将会成为主流,如果有现在就想体验DDR5内存的朋友,不妨了解一下现在在售的影驰Gamer DDR5内存条,为将来做好准备。

影驰Gamer DDR5内存条,采用全新DDR5内存规格,具有5200/5600/6200等多款高频工作频率,轻松满足游戏、设计的双重需求。支持XMP 3.0一键超频,无需动手即可享受高频体验。个性化红蓝撞色设计,搭配全铝合金高效散热马甲,颜值与实力并存。全面兼容主流Z690 DDR5平台,未来也将支持AMD新一代DDR5的ZEN平台。

虽然本次AMD分享了不少有关锐龙7000处理器的参数细节,但具体实际性能表现还要看后续的实机测试,也让我们更期待可能在今年秋季上市的锐龙7000处理器和AM5平台了。

AMD发布5纳米Zen4锐龙7000芯片2

继苹果之后,AMD发布5纳米个人电脑(PC)芯片。5月23日台北电脑展(Computex)上,AMD CEO苏姿丰发表主题演讲,正式发布新锐龙处理器Ryzen 7000系列,采用台积电5纳米工艺Zen 4架构打造,该芯片预计将于2022年秋季面市。

苏姿丰称,与前一代产品相比,Ryzen 7000系列的Zen 4架构内核拥有翻倍的L2缓存,容量从前三代Zen架构的512KB增加到1MB,处理器的单线程性能提升超过15%,并且拥有5GHz+的加速频率。此外Zen 4架构还进一步提升了AI性能,AMD还特别强调在Blender多线程渲染工作负载的效能也比英特尔酷睿i9-12900K处理器高出30%以上。

AMD是全球知名的CPU(中央处理器)和GPU(图形处理器)厂商。这家成立于53年前的老芯片公司,是全球第二大CPU和GPU(图形处理器)厂商,曾长期落后于英特尔和英伟达。近年来,在现任CEO苏姿丰带领下,AMD强势崛起。最近几年,AMD在CPU市场份额不断提高,正在蚕食英特尔市场。

AMD近年全面拥抱台积电,在成为台积电7纳米制程大客户外,也在积极争取5纳米产能。最新发布的新一代Ryzen 7000系列处理器即是如此。AMD在2020年成为台积电前六大客户,营收占比约 7%,去年首度提高至10%,跃居台积电第二大客户,可见双方合作关系。

不过最近两个季度,英特尔携新工艺开始反击。目前,英特尔台式机CPU市场的份额重新由2021年第三季度的50.4%升至57.4%。此次AMD发布新一代处理器,意味着两家厂商的角力还在激化。

PC市场仍在逐渐向AMD倾斜,在台式机市场外,英特尔传统上强势的笔记本电脑也被AMD撕开突破口。苏姿丰指出,由于移动市场对高性能计算的强劲需求,预计有超过200款超轻薄、游戏和商用笔电,已搭载Ryzen 6000 系列处理器。

不过,疫情和宏观市场影响下,PC市场增长预期不明,也有终端厂商传来砍单、降低出货的动作。市场研调机构集邦咨询更表示4月笔电出货量创下疫情以来新低,

在疫情居家办公、娱乐等需求下逆势增长数季的PC市场需求放缓,将影响AMD营收前景。此前在第一季度财报会上,苏姿丰便提及,从出货量角度看,2022年该市场的增长将稍显平缓。

不过她称,PC市场将展现出一些结构变化,高端和商用机型的增速将高于低端和教育产品。她认为,市场对AMD产品的整体需求将在2022年保持强劲,服务器业务的增长将领跑公司各业务。随着新一代CPU和GPU产品的推出,AMD有望继续实现高速增长。

AMD发布5纳米Zen4锐龙7000芯片3

近日,AMD CEO苏姿丰女士在2022 ComputerX活动上发表主题演讲,正式公布了其下一代基于AM5平台的Ryzen 7000桌面处理器的部分信息。

据悉,新的锐龙7000系列处理器将采用全新的Zen 4架构,AMD声称锐龙7000处理器(未公布具体型号,可能是Ryzen 9 7950X)的单线程性能比采用现有Zen 3架构的Ryzen 9 5950X处理器相比提升了 15%。

锐龙7000系列桌面级处理器采用多芯片模块设计,拥有两个Zen 4 CCD(CPU 核心芯片)和一个 I/O控制器芯片。CCD芯片采用5纳米工艺制造,而 I/O 芯片采用 6 纳米工艺,相对于上一代的12 纳米的 I/O 芯片工艺制造,有较大升级。

同时,锐龙7000系列处理器每个核心的L2级缓存,将从旧有Zen架构处理器所配备的512 KB直接增加一倍,升级至1 MB,但是未详细介绍其L2、L3级缓存的情况,CPU运行频率可达5.5 GHz 以上。

AM5平台支持多达 24 个 PCI-E 5.0 通道,其中16个用于 PCI-E显卡插槽,4 个用于连接到 CPU 的 M.2 NVMe固态硬盘插槽。并且将仅支持下一代DDR5内存,如果用户想要升级全新平台,就必须更换内存了。

不过有一点值得欣慰的是,AM5处理器的散热器与AM4平台高度兼容,可以相互通用,而英特尔在这方面就有点不够走心了。其旧有平台的散热器不能直接使用在12代酷睿平台上,新散热器设计也不合理,使用一段时间之后会导致处理器出现轻微变形,在AM5平台上则不存在这种事情。

AM5平台支持多达 14 个 USB 20 Gbps 端口,包括 Type-C端口,多达四个 DisplayPort 2 或 HDMI 2.1 端口,并将采用与联发科共同开发的 Wi-Fi 6E + 蓝牙 WLAN 网络解决方案。

关于配套主板,AMD表示在今年秋季正式发布锐龙7000系列处理器时,首批将提供搭载三种芯片组型号的主板,分别是AMD X670 Extreme (X670E)、AMD X670 和 AMD B650。前两者定位于高端,针对的是发烧友用户群体,价格一般比较昂贵,而B650系列是面向主流的普通消费者,价格会相对亲民。

除了介绍处理器和主板芯片组之外,AMD表示还将推出若干项技术创新,例如适用于Radeon RX 6000系列显卡的Smart Access Memory技术、Smart Access Storage技术、AMD platform-awareness技术等等。

AMD在视频演示中展示了某款Ryzen 7000处理器和英特尔Core i9-12900K运行 Blender处理器渲染软件的PK成绩对比。

结果显示 Ryzen 7000处理器在204秒内就完成了任务,而竞品Core i9-12900K 处理器完成同样任务的用时为297秒,两者相差31%,Ryzen 7000处理器领先幅度非常大。

对于这个测试要补充两点:一、 AMD方面并没有明确说明这款Ryzen 7000处理器的具体型号,但是据推测,很可能是Ryzen 9 7950X。

二、两个平台的内存配置不同,英特尔平台采用的是DDR5-6000 CL30,而AMD平台采用的是DDR5-6400 CL3, 在内存方面AMD明显占优,但是由此造成的最终成绩差异应该不大。

AMD计划在今年秋季正式发布Ryzen 7000 Zen 4桌面级系列处理器,具体时间可能是在 9 月至 10 月之间。

AMD方面目前并没有完整公布 Ryzen 7000处理器、AM5平台和600系列芯片组的所有细节,预计未来将会逐步公布,敬请关注。

不是内地自主研发的芯片,属于台积电的设计,以为公布的参数来说,在国内的业界性能属于天花板了。

内地只是负责一个组装厂而已,核心技术全部没有,你可以想象成外国公司借了个壳,实质上是外企。

阿里巴巴出钱,创意电子设计,台积电流片,平头哥发布。如同你花钱找个老裁缝高级定制了一件西装,自己选了款式、面料种类、颜色、辅料等等,然后说这件西装是我自主研发的,就不大对了。

具体参数上,倚天710采用了最新的5nm制程工艺,采用ARM最新的ARMv9架构,阿里也表示倚天710是业界首款基于ARMv9架构打造的产品,在核心数目上最高可以达到128核,单芯片的晶体管更是达到了600亿之巨。

同时得益于先进的工艺,倚天710可以支持3.2GHz的主频,此外倚天710也将支持8通道的DDR5内存,并且支持最新的PCIe 5.0通道,通道数达到了96条,显然这是一款为未来所打造的处理器产品。

在权威的SPECint 2017测试软件上,倚天710的跑分达到了440分,全面领先友商的产品。可以说随着倚天710处理器的发布,阿里云已全面兼容x86、ARM、RISC-V等主流芯片架构,为客户带来全面的性能体验与云服务。

芯片不会外卖:

倚天710芯片的规格和参数的确很强,但更重要的是如何去把这个性能发挥出来。倚天710在研发和应用过程中,与阿里云业务应用是紧耦合的,而阿里云的业务场景和应用又是很独特的,在外面找不到同类型的。

也就是说,倚天710就算是对外出售,也不会有太多服务器整机厂商、ISV或者最终用户会买,因为买了也用不好。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/560557.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-01
下一篇2023-07-01

发表评论

登录后才能评论

评论列表(0条)

    保存