Ampere公司是一家专注于ARM架构服务器芯片的新生公司。在2019年,甲骨文公司向Ampere公司投资4000万美元。此前,Ampere也获得了ARM公司的注资。能接连得到科技巨头的青睐,因为这家处理器新贵肩负一个重大使命,将代表ARM阵营继续挑战X86架构在服务器芯片领域的霸权。
Ampere的前身是Applied Micro公司旗下的ARM处理器部门,在2017年由私募股权投资公司Carlyle Group从Macom中收购而得。而Ampere的CEO Renee James在2016年2月离开英特尔后便加入Carlyle Group,最后促成Carlyle Group投资及创立Ampere公司。
成立后的Ampere很快就推出了产品:基于ARM v8.0架构的32核芯片eMAG 芯片,采用TSMC 台积电16FF +工艺构建,运行频率为3.3 GHz。该芯片已经交付了联想等一批客户。在一年半之后,2020年3月,Ampere的最新产品Altra诞生了,这款芯片被定义为世界上首款“云原生处理器”。
为云而生
在介绍Altra的特性之前,要先谈到大背景:云计算。
这个已经为人熟知的概念,是由企业级计算演进而来的。但是,云计算对处理器的需求已经相比原来发生了翻天覆地的变化。用Ampere 产品高级副总裁Jeff Wittich的话来说,光是从软件角度,现在的需求更多的是朝向云原生如容器、微服务这类的计算模型快速转变,而不是面向以前那种企业级内部的计算模型。
加之越来越多的边缘数据中心加入,带来了与以往不同的延时、散热、功耗等需求。“超大规模的云,包括边缘的云计算的需求的增长,使得我们对于像CPU的部署密度和能耗的要求越来越高。”Jeff Wittich表示。
还有两个重要的变化:机器学习和AI功能增强以及基础设施的定制化。前者使得算力的需求在各个地方都与日俱增,后者要求各种为客户定制的异构型基础设施也有云计算的能力。
“所以我们需要一种新型的计算能力,专门针对云的。”Jeff Wittich总结道:“我们需要很多非常高效的CPU的内核,需要整个基础设施都非常低的功耗,而且需要非常好的扩展性。”
Altra就是这种新型计算能力的代表。这款芯片是从一开始设计、制造就面向云,为满足云计算需求而生的CPU。
强者如斯
Jeff Wittich将当代云计算的要求归结为三种:可预测性、跨平台的可扩展性和高能效及部署密度。
Altra拥有80个64位ARM核,采用了Monolithic die(即单芯片设计)工艺,所有的核都在Mesh网络下连接在一起,具备了非常高的内存带宽和内存密度,能提供很高的可预测性。
基于行业中最领先的每核功耗,Altra可以提供极大的可扩展性,在从边缘到超大规模云的不同部署环境下可提供多种处理器配置。同时,Altra还提供多路的支持,非常灵活的I/O连接及高带宽。
Jeff Wittich强调:“我们这个处理器最大一个优点是功耗非常低,同时单核功耗更低或者说每瓦性能是业内最高的。”
“我们这款CPU,特别适用于现在云计算所需要的计算模型,包括像容器、微服务,函数即服务等这些计算模型当中。”Jeff Wittich表示。
Altra的一大特色是采用了单核单线程的设计,通过消除单物理核多线程设计中,多用户共享资源的争夺引起的“相邻干扰”问题,可以实现提供100%的可预测性能核心。Jeff Wittich认为,单核单线程的设计,能够保证在运算或者执行的时候有一个具备一致性的、可预测的性能。“从执行角度来说,设计单核单线程,第一能够降低延迟,第二能够保持可预测的性能一致性。”
Altra还具有两个128BT的SIMD单元用于浮点计算。现在推理越来越重要,并且在所有基础设施上都运行,所以Altra提供int8和FP16的支持,提高AI推理加速性能。
缓存方面,Altra也“出手阔绰”。其具有单核64KB L1 I/D-cache,单核1MB L2 cache 和 32MB 系统级缓存。
内存子系统也经过精心设计。Altra拥有8个DDR4通道,频率3200Hz,每一个通道能插两个DIMM,运行的时候能够提供单路200GB/s的传输速度。“此外,我们还有非常好的I/O子系统,单路128条PCIe Gen4通道,两路是192条PCIe Gen4,这个是行业里最高的。X16的控制器可分为x8或者x4或者x2不同的设计选择。Altra可以连接高带宽GPU,还可以连接高fan-out及NVME存储设备。“Jeff Wittich补充道。
“我们的处理器除了拥有最多的80核以外,性能也是行业内最好的。我们要比AMD的64核EPYC处理器,28核的Intel 至强(Xeon)处理器的性能好。”Jeff Wittich指出,对于一些基于云特别多的这些应用,比如说像搜索、AI推理、解码、数据库等等,Altra不仅仅性能更高,功耗也更低,每瓦特的性能比AMD的EPYC和Intel至强要高。
生态已变
从Calxeda到Applied Micro再到高通,ARM体系冲击服务器CPU的尝试都折戟了,反而是Intel逐渐占据了90%的市场份额。
背后的原因是多方面的,主要一个就是过往的服务器生态对ARM不太友好。但是这个局面已经发生改变了。
Jeff Wittich指出,ARM架构目前已经具有领先的数据中心的性能和能效。此外,ARM软件的生态现在基本上已经成熟了,所有运行数据中心的这些软件都是可以基于在ARM上进行运行的。更重要的一点,台积电现在已经有7纳米的先进工艺制程技术。
据Jeff Wittich介绍,所有大型的操作系统,如Linux、BSD、windows都可以得到ARM架构的支持。容器化,包括虚拟化工具如docker、VMware、KVM和Kubernetes都可以在ARM架构运行。编程语言,包如CUDA和Java也都可以得到ARM的支持。
重要的一点,现在有大概有1200亿左右ARM的设备在部署,主要分布在移动端、物联网以及消费电子领域中。这样的一个大规模的设备部署,使得ARM体系已经成为最大的处理器生态系统。
从TCO考量来说,同样的总体应用成本下所带来的性能,Altra比AMD的EPYC高41%。“如果和Intel至强相比,包括与2月24号公布最新的版本相比较,我们单位的总体应用成本要比其高63%。”Jeff Wittich表示。
Ampere的团队经验非常丰富,做服务器这块已经平均干了二十多年了。Jeff Wittich认为这也是Altra的优势所在。“我们这个团队曾设计过很多代的服务器处理器,出货量在市场上都是非常大的。我们这个团队在整个行业当中有非常广泛的合作伙伴生态环境,包括IP供应商的,也包括软件供应商的。”
Jeff Wittich告诉记者,去年NVIDIA宣布完全支持ARM生态,这是一个大进展。“我们也在自己建设软件生态,和所有的开源社区包括软件开发商一起,进一步地完善我们的生态。”
据Jeff Wittich透露,Ampere在过去一年和最主要的云服务商一直在合作,像微软、甲骨文(Oracle)等等,包括其他一些厂商,都在测试这款Altra处理器。他预计2020年下半年会有厂商进行部署,规模量产则将在年中进行。
对于未来的规划,Ampere已经制定完毕。“我们计划2021年推Mystique这个新的产品。Mystique核数更多,性能更好,和现在的Altra平台能够兼容。我们在2022年将推出叫做Siryn的新产品。Siryn要比之前的两款产品核数更多,性能更好,功耗更低,而且还有更多基于云的设计的特点。”Jeff Wittich最后表示。
我的评论
最新评论