Wave Computing
Wave Computing在2018取得了不少进展,推出其第一个DataFlow处理单元,收购MIPS,创建MIPS Open,并将首批系统交付给少数客户。虽然Wave架构有一些非常有趣的功能,但我们更期待用户的大规模真实体验反馈。
Wave不是插入到服务器的加速器,它是用于图形计算的独立处理器。这种方法有利有弊。从积极的方面看,Wave不会受到GPU等加速器面临的内存瓶颈影响。从消极方面来说,安装Wave设备将是新的升级,需要完全替换传统的X86服务器,也让其成为所有服务器制造商的竞争对手。
我不认为Wave能从某个点击败NVIDIA,但该架构的设计的非常好,该公司已经表示它很快就会有客户的反馈。
图1:Wave是从上面显示的4节点“DPU”构建的系统。Wave Computing
Graphcore
Graphcore是一家资金雄厚(融资3.1亿美元,目前估值为17亿美元)的英国独角兽创业公司,拥有全球化的团队。它正在构建一种新型的图形处理器架构,其内存与其逻辑单元位于同一芯片上,这应该能够实现更高的性能。该团队产品的发布时间暂不明确,不过他们去年四月表示“几乎准备好发布”了,12月的最新信息表明它将很快开始生产。
Graphcore的投资者名单令人印象深刻,包括红杉资本、宝马、微软、博世和戴尔 科技 。
我了解了该公司的架构,它非常令人印象深刻。从边缘设备扩展到用于数据中心的训练和推理的“Colossus”双芯片封装。在最近的NeurIPS活动中,Graphcore展示了其RackScale IPU Pod,它在一个32台服务器的机架中提供超过16 petaflops的算力。虽然该公司经常声称它将提供比同类最好GPU强100倍的性能。
Graphcore表示,4“Colossus”GC2(8芯片)服务器可提供500 TFlops(每秒数万亿次操作)的混合精度性能。单个NVIDIA V100可提供125 TFlops,因此理论上4 个V100就可提供与其相同的性能。
与往常一样,细节更能发现差别,V100峰值性能仅在重构代码执行TensorCore的4x4矩阵乘法时才可用,这是Graphcore架构巧妙避免的限制。更不用说V100消耗了300瓦的电能和大量现金这一事实。
此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,可以得到超出TFlops基准所认可的优秀性能。在一些神经网络中,如Generative Adversarial Networks,内存是瓶颈。
再次强调,我们将不得不等待真实的用户用实际应用程序来评估此体系结构。尽管如此,Graphcore的投资者名单、专家名单和台天价估值告诉我,这可能是一件好事。
图2:GraphCore展示了ImageNet数据集处理的照片。 可视化可帮助开发人员了解其训练处理占用处理周期的位置。
Habana Labs
Habana Labs是一家以色列创业公司,去年9月在第一次AI硬件峰会上宣布它已经准备好推出其首款用于推理的芯片,其创纪录的性能用于卷积神经网络图像处理。结果显示在Resnet50图像分类数据库中该处理器每秒分类15,000张图像,比NVIDIA的T4高出约50%,功耗仅为100瓦。
在2018年12月,Habana Labs的最新一轮融资由英特尔风险投资(Intel Venture Capital)领投,WRV Capital,Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。
据悉,Habana Labs新的融资将部分用于流片其名为“Gaudi“的第二款芯片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。
其它创业公司
我知道世界上有超过40家公司在为人工智能设计训练和推理芯片。我发现大多数公司都在进行简单的FMA(浮点乘法累加)和混合精度数学(整型8位和浮点16位和32位)。对此我不会感到惊讶,因为这种方法相对容易实现并且会获得一些成果,但它不会为像NVIDIA,英特尔以及少数初创公司做出不一样的架构提供持久的架构优势。
以下是一些引起我注意的公司:
中国AI芯片初创公司
中国一直试图找到一条摆脱美国半导体的方式,人工智能加速器可能会提供它一直在寻求的机会。中国设定了2030年要建立一个价值数万亿美元的人工智能产业的目标,自2012年以来,投资者已经向创业公司投入了超过40亿美元的资金。
寒武纪 科技 估值为25亿美元,是已经发布了第三代AI芯片的中国独角兽公司。寒武纪称它可以用更低的功耗提供比NVIDIA V100更好的AI性能,他们还销售其AI IP,搭载在华为麒麟970和麒麟980的处理器当中,作为AI加速硬件。
商汤 科技 也许是估值最高的AI创业公司,以在中国推广智能监控摄像头而闻名。这些安防摄像头数量超过1.75亿,包括其他公司生产的摄像头。商汤 科技 在香港成立,最近一轮融资数额达6亿美元,由阿里巴巴领投。据报道,这家初创公司的价值目前为45亿美元。
商汤 科技 与阿里巴巴、高通、本田甚至NVIDIA等主要公司建立了战略合作伙伴关系。该公司今天拥有一台超级计算机,运行大约8000块(可能是NVIDIA提供?)GPU,并计划再建造5台超级计算机来处理数百万个摄像头采集的面部识别数据。
雷锋网编译,via forbes
我们关注到,在任何一个科技领域,如今的趋势就是分工越来越强化,专业程度越来越高。AI芯片就是个典型的案例,原来并不存在AI芯片,最早芯片就是CPU,后来GPU用粗犷的并联方式却达到了CPU达不到的彼岸,开启了人工智能,无人机,无人驾驶等众多电子设备。而人类不会满足于一颗GPU,人类需要专用的芯片去对付一项功能。我们都知道CPU和GPU,如果你以前DIY电脑的话,你将需要在这两样硬件的性价比上权衡。他们的结构大致如下图:
CPU是高级的,因为要处理很多复杂的事物。而GPU有很大的逻辑运算空间,同时能处理的事物比较单一。从技术含量上看,英特尔无论如何比novidia投入更多,CPU比GPU更有科技含量,但科技的彼岸未必如你预期,GPU并联运算能力的开发,一切都变得不同。正因为GPU简单,其运算能力可以如搭积木一样提高。分布式的GPU。
人工智能靠什么?我们很多年前开始说人工智能时候就说了三点:算法、大数据和并行运算神经网络。为了推进人工智能发展,算法是公开的,数据不用说,各显神通,那么最重要的人工智能的硬件技术就是并行运算的能力。
这个时候技术先走到FPGA,再到ASIC芯片也就是AI芯片。这个过程实质上简单明了。FPGA,通用性不错,但是能耗和运算能力不佳。而更加专业的ASIC芯片可以提升这个能力,使得开发的芯片重点用于人工智能。现阶段很多无人机,高清视频等都在使用FPGA的芯片。但是随着数据运算级别的增加,现阶段FPGA的运算和能耗无法满足更高层次专业人工智能的需求。
AI芯片有两种,一种是云端芯片,大服务器,高能耗,集中到云端去计算数据。另一种是终端芯片,要体积小,能耗低,哪里使用就在哪里获得数据直接运算,如今基本上芯片谷歌重头是云端AI芯片,而英特尔是终端AI芯片。谷歌的云端AI芯片组成服务器,然后谷歌出租这些AI的运算能力(人工智能时代的云计算)。
你发现了吗?整个AI芯片领域已经出现了产品,但是需求在进一步进化。这里面最重要的核心,是性能和能耗。这也是集成电路提升的方向。Luminous是个7人小公司,这个公司有一个与众不同的光通信技术(硅光子技术),这样在服务器内部传输就大大加快,从而提升性能。
这家企业阶段性技术目标并不高,就是替代谷歌AI云端服务器的芯片。为什么谷歌要选择他的芯片,当然需要他的技术比谷歌自己研发出来的芯片要好,既然谷歌是出售云端AI服务器,那么服务器性能就代表其印钞的能力。谷歌现阶段服务器是使用3000块Tensor Processing Unit AI芯片搭建的电路板。而未来如果成功,Luminous将成为一家专业的AI芯片提供商。
国外很多专业性很强的芯片公司就是这样开始的,很多巨头喜欢投资初创公司。他们相对来说技术路线清晰,专注性强,运营成本低。所以比尔盖茨投资AI芯片公司Luminous,就是因为在AI芯片这个领域缺乏专业性很强的巨头,对于很多公司,芯片你和英特尔竞争机会不大,AI芯片是个弯道超车的机会。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)