华为发布最强AI训练集群Atlas 900的意义何在?

华为发布最强AI训练集群Atlas 900的意义何在?,第1张

日前,在华为全联接2019大会上,华为副董事长胡厚昆发布了Atlas 900 AI训练集群

此次发布的Atlas 900 AI训练集群由数千颗升腾910 AI处理器互联构成,每颗升腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力。集群总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。

华为已在华为云上部署了一个Atlas 900 AI训练集群,集群规模为1024颗升腾910 AI处理器。华为以极优惠的价格,面向全球科研机构和大学,即刻开放申请使用。

传统上,我们对华为的认知是一个做基站的通讯业厂商,后来华为开始做手机,是一个手机厂商,而事实上,华为还有一个企业业务BG,为企业服务也是华为的重要业务。

那么,华为搞这个Atlas 900 AI训练集群的目的是什么?这个东西到底有多先进?其意义何在呢?

一、 升腾910的实力

最近几年,随着深度学习算法的突破,人工智能开始热了起来。但是人工智能的计算模式与传统的CPU计算不太一样,这让算力成了瓶颈。

一开始,人们用很多CPU组成传统的超级计算机,做AI计算。

后来,人们用GPU并行计算的优势,把GPU做人工智能计算。我们熟悉的AlphaGO,就是在nVIDIA的GPU上训练的。

但是,从理论角度,GPU设计出来是跑 游戏 ,跑设计的,而不是为了计算的。后来nVIDIA的黄老板发现,这么强大的计算能力只用来玩 游戏 太浪费,搞出来通用计算,GPU才能跑计算。

而那个时候,深度学习还没突破,人工智能还没热闹起来,所以GPU跑AI计算其实也是兼职,不是专职。

最后,人们干脆搞专门的芯片用来做AI计算,谷歌在搞,百度在搞,中科院投资的寒武纪在搞。

华为一开始是买的寒武纪的IP,用在自己的麒麟970上面,但是很快华为发现这个东西自己也可以来,于是就开发出达芬奇架构,搞出来升腾910。

按照华为的数据,在7nm工艺上,升腾910相比Nvidia 12nm下的Tesla V100要快一倍。

因为Tesla V100不仅算AI,也要当超算的加速器用,阉割一下还得当显卡用,所以晶体管不能全部用在算AI上。

而升腾910是专用的,这个差别,类似于CPU挖矿,GPU挖矿和矿机芯片挖矿的区别。

从专用芯片比较,百度的昆仑,寒武纪公布的芯片算力效率也很强大。但是它们相比华为的硬件实力有很大差距。

所以,华为的产品已经流片上线,它们的产品还在PPT和流片实验阶段。

目前,你能用上的AI计算,华为的方案是最强的。

二、 华为的意图

目前,华为的升腾910和Atlas 900 AI训练集群对外不销售,而是通过网络提供廉价的算力。

从成本上看,Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式,高速低延迟互联的另外一个涵义就是“贵!”。

而升腾910用7nm流片,7nm本身就很贵,nVIDIA还用便宜的12nm,华为用昂贵的7nm加上昂贵的高速互联,成本应该高很多。

但是,华为偏偏不高价卖。

nVIDIA的Tesla V100一个卖1万美元。谷歌对外租,但是你要租一个32核的算力一个小时24美元,租一年优惠价是37842美元。

华为的价格还没出来,但是华为说了会以极优惠的价格,面向全球科研机构和大学。

华为高成本搭建算力平台,低价出租,这是做慈善吗?

当然不是,华为的意图也很有意思。

现在人工智能热,相当于淘金。而华为,nVIDIA和谷歌(未来也许有百度、寒武纪)是卖水的。

在通讯行业,电信运营商是淘金的,华为、诺基亚,爱立信是卖水的。

华为知道卖水能发财,目前这个布局期,我卖便宜点,尽量让淘金者喝我的水,然后习惯用我的杯子,我的水桶(AI配套的软件框架),等你习惯了,整个AI业界都用我的算力。我再舒舒服服的收费,淘金者就只能从我这买水了。

这个策略,和当年微软纵容盗版Windows一样,你习惯用Windows不是个系统问题,而是整个生态都在Windows下没法换了。X86处理器也没法换。

这是华为的意图。

三、 华为的AI大局缺一个百度

我们知道,当年在桌面计算上。是Wintel联盟,英特尔出硬件,微软出软件,搭建生态系统。

后来移动领域,是AA,ARM和安卓,ARM和苹果。

华为要搞这个,不仅是开放算力的问题,还需要有一个搞软件,搞应用的把算力需求放到华为平台上来。

这个人是谁呢?百度最合适

百度深耕AI的年头很长,布局时间和谷歌差不多,其他家的AI还在概念的时候,百度的AI已经落地到工业企业,用于质检,物流,客服很多领域了。

百度的做法是,前台服务结合行业,后台算力在百度的AI云上,百度提供软件框架,落地到解决方案。百度云端相当于AI的大系统。

华为的AI卖水要成功,需要和百度结合起来,华为AI提供算力,百度把华为的AI算力,做成AI云平台,让应用端直接调用,应用端解决实际问题。

最后是任何行业需要AI提高效率,那么它就用百度AI云平台的方案,直接调动功能。而百度AI再使用华为的AI计算硬件的算力。

华为与百度联手,或者能够变成AI时代的Wintel。

据悉,Atlas 900由数千颗升腾处理器组成,可以让AI训练工作效率提升数十万倍。假设一次训练需5个月,而使用Atlas 900仅需要数十秒!在衡量AI计算能力的金标准ResNet-50模型训练中,Atlas 900只用了59.8秒就完成了训练,比原世界纪录快了10秒。打个比方,相当于短跑冠军跑完终点,喝完一瓶水才等到第二名。

Atlas 900集群采用目前算力最强的AI处理器华为升腾910,数千颗互联,每颗都有32个达芬奇自主架构AI核心,整个集群的FP16半精度浮点算力达到256-1024PFlops,也就是秒钟25.6-102.4亿亿次计算!这足以相当于50万台PC的计算能力。

应用超广,检索20万颗星星只需10秒!据悉,华为Atlas 90可广泛应用于科学研究、商业创新。以天文探索为例,以往,海量的数据计算和处理需要大量人力、时间的投入。面对一张20万颗星星的星空图,如果需要定位某种特征的星体,一个天文学家需要耗费169天的工作量才能完成。而有了Atlas 900后,定位时间缩短为10秒。

除此之外,Atlas 90在自动驾驶、气象预测、石油勘探等特定领域也能大展拳脚。其实,AI智能技术早已结合各行各业,发展得如火如荼,混搭跨界出了新火花。

今年七月,全球首个完全由人工智能(AI)研制的药物就已经进入人体试验阶段,原先研制一种疫苗,需要医药公司数千人连续工作5年,耗费数亿美元,而有了AI技术的帮助,一个小型科研团队只用两年左右就开发完成。AI既简化了疫苗的研制流程、大幅降低了成本,又提高了疫苗的有效性。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/649824.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-07-22
下一篇2023-07-22

发表评论

登录后才能评论

评论列表(0条)

    保存