升腾AI处理器系列（一）_服务器知识

1950年，图灵发表《计算机器与智能》，提出了著名的图灵测试：如果机器与人类进行对话而人无法辨别机器身份，则该机器具有智能。

图灵测试的提出对后来人工智能的发展具有不可忽略的意义。

达特茅斯会议之后，人工智能开始爆发，经过多起多落，终于旭日升腾。

升腾AI处理器是华为公司为了满足当今飞速发展的神经网络对芯片算力的需求，于2018年推出的AI处理器，可以对整型数或者浮点数提供强大高效的乘加计算力。其本质上是一个片上系统，主要可以用在与图像，视频，语音，文字处理相关的场景。

该处理器大致可划分为：控制CPU（Control CPU）、AI计算引擎（AI Core和AI CPU）、多层级的片上系统缓存（Cache）或缓冲区（Buffer）、数字视觉预处理模块（Digital Vision Pre-Processing，DVPP）等。

升腾AI处理器集成了多个CPU核心，每个核心都有独立的L1和L2缓存，所有核心共享一个片上L3缓存。

升腾AI处理器真正的算力担当是才用了达芬奇架构的AI Core。AI Core经过特别的设计，特别适合处理深度学习中神经网络必需的常用计算，比如矩阵相乘等。

DVPP：主要完成图像视频的编解码，支持4K分辨率的视频处理，支持JPEG和PNG等图像格式得处理。

DVPP主要实现了视频解码（VDEC),视频编码（VENC）,JPEG编解码（JPEGD/E）,PNG解码（PNGD）,和视觉预处理（VPC）等功能。

升腾 910 采用了 7nm+ EUV 工艺，并用上了 Da Vinic 达芬奇架构。华为官方在发布时提到，升腾 910 的运算能力相当于 50 个当前最前的 CPU，它的训练速度也是比目前最强的 AI 芯片还要强 50%-100%。

根据华为官方公布的测试数据，升腾 910 已经达到了设计规格预期。升腾 910 的 FP16 算力达到 256 Tera-FLOPS，INT8 算力达到 512 Tera-OPS。重要的是，升腾 910 达到规格算力所需功耗仅 310W，明显低于设计规格的 350W。

升腾 910 总体技术表现超出预期，已经把升腾 910 用于实际 AI 训练任务。比如，在典型的 ResNet50 网络的训练中，升腾 910 与 MindSpore 配合，与现有主流训练单卡配合 TensorFlow 相比，显示出接近 2 倍的性能提升。

欢迎分享，转载请注明来源：夏雨云

升腾AI处理器系列（一）