FPGA, CPU, GPU, ASIC区别，FPGA为何这么牛（二）_服务器知识

姓名：任佩怡学号：19020100348 学院：电子工程学院

转自：https://blog.csdn.net/qq_18597483/article/details/106649227?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162849450116780357280058%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=162849450116780357280058&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_v2~rank_v29-29-106649227.first_rank_v2_pc_rank_v29&utm_term=FPGA&spm=1018.2226.3001.4187

【嵌牛导读】对于专业人士来说，FPGA并不陌生，它一直都被广泛使用。但是，大部分人还不是太了解它，对它有很多疑问——FPGA到底是什么？为什么要使用它？相比CPU、GPU、ASIC（专用芯片），FPGA有什么特点？……

【嵌牛鼻子】FPGA, CPU, GPU, ASIC

【嵌牛提问】FPGA, CPU, GPU, ASIC的区别及FPGA的过人之处

【嵌牛正文】

二、微软部署 FPGA 的实践

2016 年 9 月，《连线》（Wired）杂志发表了一篇《微软把未来押注在 FPGA 上》的报道 [3]，讲述了 Catapult 项目的前世今生。

紧接着，Catapult 项目的老大 Doug Burger 在 Ignite 2016 大会上与微软 CEO Satya Nadella 一起做了 FPGA 加速机器翻译的演示。

演示的总计算能力是 103 万 T ops，也就是 1.03 Exa-op，相当于 10 万块顶级 GPU 计算卡。一块 FPGA（加上板上内存和网络接口等）的功耗大约是 30 W，仅增加了整个服务器功耗的十分之一。

Ignite 2016 上的演示：每秒 1 Exa-op (10^18) 的机器翻译运算能力

微软部署 FPGA 并不是一帆风顺的。对于把 FPGA 部署在哪里这个问题，大致经历了三个阶段：

专用的 FPGA 集群，里面插满了 FPGA

每台机器一块 FPGA，采用专用网络连接

每台机器一块 FPGA，放在网卡和交换机之间，共享服务器网络

第一个阶段是专用集群，里面插满了 FPGA 加速卡，就像是一个 FPGA 组成的超级计算机。

在半导体行业，只要批量足够大，芯片的价格都将趋向于沙子的价格。

当然现在数据中心领域用两家公司 FPGA 的都有。只要规模足够大，对 FPGA 价格过高的担心将是不必要的。

像超级计算机一样的部署方式，意味着有专门的一个机柜全是上图这种装了 24 块 FPGA 的服务器（下图左）。

这种方式有几个问题：

不同机器的 FPGA 之间无法通信，FPGA 所能处理问题的规模受限于单台服务器上 FPGA 的数量；

数据中心里的其他机器要把任务集中发到这个机柜，构成了 in-cast，网络延迟很难做到稳定。

FPGA 专用机柜构成了单点故障，只要它一坏，谁都别想加速了；

装 FPGA 的服务器是定制的，冷却、运维都增加了麻烦。

一种不那么激进的方式是，在每个机柜一面部署一台装满 FPGA 的服务器（上图中）。这避免了上述问题 (2)(3)，但 (1)(4) 仍然没有解决。

第二个阶段，为了保证数据中心中服务器的同构性（这也是不用 ASIC 的一个重要原因），在每台服务器上插一块 FPGA（上图右），FPGA 之间通过专用网络连接。这也是微软在 ISCA'14 上所发表论文采用的部署方式。

红框是放 FPGA 的位置。

FPGA 采用 Stratix V D5，有 172K 个 ALM，2014 个 M20K 片上内存，1590 个 DSP。板上有一个 8GB DDR3-1333 内存，一个 PCIe Gen3 x8 接口，两个 10 Gbps 网络接口。一个机柜之间的 FPGA 采用专用网络连接，一组 10G 网口 8 个一组连成环，另一组 10G 网口 6 个一组连成环，不使用交换机。

这样一个 1632 台服务器、1632 块 FPGA 的集群，把 Bing 的搜索结果排序整体性能提高到了 2 倍（换言之，节省了一半的服务器）。

如下图所示，每 8 块 FPGA 穿成一条链，中间用前面提到的 10 Gbps 专用网线来通信。这 8 块 FPGA 各司其职，有的负责从文档中提取特征（黄色），有的负责计算特征表达式（绿色），有的负责计算文档的得分（红色）。

FPGA 在 Bing 的部署取得了成功，Catapult 项目继续在公司内扩张。

微软内部拥有最多服务器的，就是云计算 Azure 部门了。

Azure 部门急需解决的问题是网络和存储虚拟化带来的开销。Azure 把虚拟机卖给客户，需要给虚拟机的网络提供防火墙、负载均衡、隧道、NAT 等网络功能。由于云存储的物理存储跟计算节点是分离的，需要把数据从存储节点通过网络搬运过来，还要进行压缩和加密。

在 1 Gbps 网络和机械硬盘的时代，网络和存储虚拟化的 CPU 开销不值一提。随着网络和存储速度越来越快，网络上了 40 Gbps，一块 SSD 的吞吐量也能到 1 GB/s，CPU 渐渐变得力不从心了。

例如 Hyper-V 虚拟交换机只能处理 25 Gbps 左右的流量，不能达到 40 Gbps 线速，当数据包较小时性能更差；AES-256 加密和 SHA-1 签名，每个 CPU 核只能处理 100 MB/s，只是一块 SSD 吞吐量的十分之一。

为了加速网络功能和存储虚拟化，微软把 FPGA 部署在网卡和交换机之间。

如下图所示，每个 FPGA 有一个 4 GB DDR3-1333 DRAM，通过两个 PCIe Gen3 x8 接口连接到一个 CPU socket（物理上是 PCIe Gen3 x16 接口，因为 FPGA 没有 x16 的硬核，逻辑上当成两个 x8 的用）。物理网卡（NIC）就是普通的 40 Gbps 网卡，仅用于宿主机与网络之间的通信。

FPGA（SmartNIC）对每个虚拟机虚拟出一块网卡，虚拟机通过 SR-IOV 直接访问这块虚拟网卡。原本在虚拟交换机里面的数据平面功能被移到了 FPGA 里面，虚拟机收发网络数据包均不需要 CPU 参与，也不需要经过物理网卡（NIC）。这样不仅节约了可用于出售的 CPU 资源，还提高了虚拟机的网络性能（25 Gbps），把同数据中心虚拟机之间的网络延迟降低了 10 倍。

这就是微软部署 FPGA 的第三代架构，也是目前「每台服务器一块 FPGA」大规模部署所采用的架构。

FPGA 复用主机网络的初心是加速网络和存储，更深远的影响则是把 FPGA 之间的网络连接扩展到了整个数据中心的规模，做成真正 cloud-scale 的「超级计算机」。

第二代架构里面，FPGA 之间的网络连接局限于同一个机架以内，FPGA 之间专网互联的方式很难扩大规模，通过 CPU 来转发则开销太高。

第三代架构中，FPGA 之间通过 LTL (Lightweight Transport Layer) 通信。同一机架内延迟在 3 微秒以内；8 微秒以内可达 1000 块 FPGA；20 微秒可达同一数据中心的所有 FPGA。第二代架构尽管 8 台机器以内的延迟更低，但只能通过网络访问 48 块 FPGA。为了支持大范围的 FPGA 间通信，第三代架构中的 LTL 还支持 PFC 流控协议和 DCQCN 拥塞控制协议。

通过高带宽、低延迟的网络互联的 FPGA 构成了介于网络交换层和传统服务器软件之间的数据中心加速平面。

除了每台提供云服务的服务器都需要的网络和存储虚拟化加速，FPGA 上的剩余资源还可以用来加速 Bing 搜索、深度神经网络（DNN）等计算任务。

对很多类型的应用，随着分布式 FPGA 加速器的规模扩大，其性能提升是超线性的。

例如 CNN inference，当只用一块 FPGA 的时候，由于片上内存不足以放下整个模型，需要不断访问 DRAM 中的模型权重，性能瓶颈在 DRAM；如果 FPGA 的数量足够多，每块 FPGA 负责模型中的一层或者一层中的若干个特征，使得模型权重完全载入片上内存，就消除了 DRAM 的性能瓶颈，完全发挥出 FPGA 计算单元的性能。

当然，拆得过细也会导致通信开销的增加。把任务拆分到分布式 FPGA 集群的关键在于平衡计算和通信。

在 MICRO'16 会议上，微软提出了 Hardware as a Service (HaaS) 的概念，即把硬件作为一种可调度的云服务，使得 FPGA 服务的集中调度、管理和大规模部署成为可能。

从第一代装满 FPGA 的专用服务器集群，到第二代通过专网连接的 FPGA 加速卡集群，到目前复用数据中心网络的大规模 FPGA 云，三个思想指导我们的路线：

硬件和软件不是相互取代的关系，而是合作的关系；

必须具备灵活性，即用软件定义的能力；

必须具备可扩放性（scalability）。

所谓带宽大就是速度高。FPGA内部的块状RAM如果不拼接的话速度是可以做得很高的。那是因为所有走线都是FPGA内部资源，而且经过优化了，延时很小。但是如果是几块RAM拼接起来用，也就是需要更大的容量，那速度就会下降了，因为延时变大了。内部RAM的使用也需要地址译码的，这部分逻辑就需要由FPGA的逻辑资源产生，而RAM的速度也取决于地址数据线的延时，RAM大了这部分延时肯定打，速度就下来了。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/319023.html

FPGA, CPU, GPU, ASIC区别，FPGA为何这么牛（二）

发表评论

评论列表（0条）