深度解读ARM新架构:大核进取、小核摆烂?

深度解读ARM新架构:大核进取、小核摆烂?,第1张

众所周知,对于如今的绝大多数的智能手机、平板电脑,以及部分笔记本电脑产品来说,ARM可以说是“一切的源头”。高通与三星的SoC近年来一直使用着ARM公版的CPU设计,而被公认“翻身”了的联发科,则靠的是ARM公版的CPU与GPU架构,甚至就连一向标榜“自研”的苹果,实际上也离不开ARM的基础指令集授权。

正因如此,当ARM方面在2022年6月28日晚间,毫无预兆地突然发布了全新一代的架构方案后,自然也值得我们去进行进一步的分析。

性能概况:大核更强、中核更省,GPU加入硬件光追

开门见山,我们先直接为大家带来ARM这一代新架构的性能相关信息。并且非常令人感叹的是,ARM此次在公布新老架构性能对比数据时居然不再“玩巧”,事实上,他们给出了可能是史上最详细的性能对比参数。

首先,是全新的Cortex-X3大核。在使用了完全相同半导体制程、主频和缓存设计的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。

在使用完全相同半导体制程,但主频和缓存设计按照新老架构的不同典型值做对比时,Cortex-X3的性能比Cortex-X2可提升22%。

如果再考虑到制程方面的因素,比如假设Cortex-X3采用新的台积电3nm工艺情况下,此时对比采用台积电4nm工艺、且主频与缓存采用现有设计的Cortex-X2时,那么新架构的性能领先幅度则会达到25%。

其次,是改进型的Cortex-A715中核,在使用相同半导体制程、相同主频和缓存设计的前提下,新的中核性能相比老设计仅有5%的提升,但请注意,此时的能效会比老架构高出20%。也就是说其实际功耗此时为Cortex-A710的87.5%,在性能略微提升的前提下省电了12.5%,算是比较明显的进步了。

相比于大核与中核的显著改进,新架构里Cortex-A510小核的改进就比较微妙了。一方面,正如其名称所示的那样,此次的新版小核还是叫做“Cortex-A510”,连名字都没变。但另一方面,要说它完全没改又不太对,因为新版的小核功耗比老版本下降了5%,同时更为重要的是,其此次加上了对32位应用的兼容性。

但请注意的是,这个兼容性功能是可选特性,并非标配。选配后是有可能会给性能带来负面影响的,但具体影响有多少,ARM方面并没有明确。

除了新版的CPU,ARM此次也同期发布了换代的GPU方案。这一次,新的GPU设计被分为了三档,分别是“顶配”的Immortalis(不朽)-G715、中配的Mali-G715,以及入门级的Mali-G615。

与本世代的Mali-G710和Mali-G610相比,新架构首先带来了15%的基础效率提升(而且是不考虑制程增益的情况下),其次还支持了VRS可变着色率技术,能够在部分高刷 游戏 中显著降低渲染负载、对于XR应用也有很大的意义。

不仅如此,作为ARM的全新旗舰GPU产品,Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法,硬件光追单元在GPU核心中仅占据了4%的面积,但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的 游戏 至今尚未上市,所以ARM的这番表述属实是“背刺”自己了。

架构分析:大核更大、中核做减法,小核原地踏步

讲完了新架构的性能参数变化,接下来我们就进入按惯例的架构分析环节,来看看ARM到底是如何实现这些改进的。

首先是全新的大核Cortex-X3,它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB,这意味着大幅提高的分支预测性能。根据官方的说法,Cortex-X3的分支预测延迟降低了12.2%,预测错误率降低了6%,同时减少了3%的前段停顿。由于分支预测性能大为提升,因此Cortex-X3的mop(微操作)缓存现在可以做得更小,同时流水线长度也进一步下降。

这还没完,与Cortex-X2相比,Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个,同时乱序窗口也进一步增大。而在后端部分,新架构的加载/存储宽度也增加了50%,并增多了数据预取引擎的数量。

更强的分支预测性能,更宽的执行窗口、更短的流水线级别,更快的存取速度,有没有觉得很眼熟?没错,这个改进方向,其实就是多年前已被Intel从奔腾4到酷睿的革新时,所证明的有效路径,只不过ARM如今将其在RISC处理器上“复刻”了一遍。

相比于Cortex-X3的锐意进取,Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了。其中,Cortex-A715的改进主要来自于放弃对32位指令集的支持,从而大幅简化了指令解码器的设计,空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详,现在只知道它具备了可选的32位支持、同时功耗略微下降而已。

与CPU部分(特别是大核心)的改动相比,ARM此次的新GPU变化显得就不是那么显著了。一方面,无论是Immortalis-G715、Mali-G715,还是Mali-G615,它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路),主要区别还是在于核心数量上做了明确限制。

另一方面,与现有的Mali-G710相比,新款GPU在基础架构上将FMA乘加单元的数量翻了一倍,设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法,新的GPU“在重负载场景下”的三角形生成率为现有的3倍,纹理映射速度是现有的2倍。不过,暂时还并不清楚这个倍数是来自底层架构的改进,还是来自于核心数量或频率的提升,因此仅仅做个参考就好。真正的GPU性能提升幅度,还得等到实际产品上市后才能有定论。

市场分析:ARM笔记本或将兴起,入门手机也有望翻身

值得一提的是,在发布新一代产品线的同时,ARM还给自家的软硬件方案起了一个新的名字,叫做“Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022”,缩写为ARM TCS22。同时,ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21,并同时预告了明年(TCS23)和后年(TCS24)的产品命名。

这意味着什么呢?从这个举动中,我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线,Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续。

但更进一步来说,ARM从TCS21到TCS22的变化,以及目前官方已经“剧透”的TCS23和TCS24不难发现,一方面ARM在TCS22(也就是这一代的新架构上)删除了中核(Cortex-A715)对32位计算的支持,同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能。

另一方面,在TCS23和TCS24的预告图里可以清楚地看到,接下来的两年里,ARM每年都会更新大核与中核设计,但小核却只会在2023年迎来一次换代,2024年则是不更新、直接沿用。

与此同时,在此次TCS22官方“样板设计”中,ARM不仅将新架构支持的最大核心数量从8核扩展到了12核,而且还给出了多个以大核、中核为主的组合方案,甚至出现了完全不采用A510小核,仅由大核与中核构成的“超高性能设计”。

这或许意味着,ARM“仗着”新架构,特别是大核(Cortex-X3)、中核(Cortex-A715)性能与能效比的显著改善,明显在有意将其往更高的市场定位上推。或许,未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。

其实回溯 历史 不难发现,此前的Cortex-A53架构用了四年(2014-2017)才换代,而Cortex-A55架构更是“坚挺”了至少五年(2018-2022)之久。相比之下,去年的“初版”Cortex-A510架构因为完全不兼容32位代码,其实并不适合入门级设备与其他低功耗设备使用。

如此一来,今年的“新版”Cortex-A510实际上才是ARM v9指令集下,第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年,它就将会被更新的架构所取代。

换句话来说,面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面,ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力,另一方面也史无前例地针对低端市场进行了“补救”。

或许在不久后,我们就会看到基于(新版)Cortex-A510架构,体验明显更加靠谱的入门级主控,或是性能与能效比都大幅进步,总算能与苹果掰掰手腕的Android智能手表平台了。

基于ARM架构处理器开发的服务器,统称为ARM架构服务器。

ARM架构服务器分两种:

1、通用型ARM服务器

类似于华为Thaishan,基于鲲鹏920 服务器专用ARM处理器开发。

2、ARM集群服务器

类似于凌点MARS3000,基于Rockchip 高性能ARM处理器开发。

MARS3000 ARM集群服务器


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/716790.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-08
下一篇2023-08-08

发表评论

登录后才能评论

评论列表(0条)

    保存