3月22日,英伟达发布了一款数据中心专属CPU——“Grace CPU超级芯片”。该芯片由两颗CPU芯片组成,其间通过NVLink-C2C技术进行互连。而NVLink-C2C则与近日英特尔与台积电、三星等多家科技厂商发起的UCIe标准有着异曲同工之妙,也是一种新型的高速、低延迟、芯片到芯片的互连技术,可支持定制裸片与GPU、CPU、DPU、NIC、SOC实现互连。
当前,新型数据中对算力需求日渐持续攀升,仅靠单一类型的架构和处理器无法处理更复杂的海量数据,“异构”正在成为解决算力瓶颈关键技术方向。chiplet(“芯粒”)技术被视为“异构”技术的集纳。3月初,英特尔发起的UCIe 标准将为chiplet(“芯粒”)技术提供统一接口和技术标准,台积电、三星、日月光、AMD、等厂商加入,但英伟达却按兵不动。
专家指出,这表明英伟达并没有想要游离在UCIe联盟之外,但也同时展现出了英伟达对NVLink-C2C的绝对信心,未来也许会组建自己的联盟。在全球异构计算领域,虽然AMD也占有一席,但从其加入了UCIe 标准联盟来看,AMD在“异构”上已经偏向英特尔这边,未来异构芯片之战主要在英特尔和英伟达之间进行,业界称之为“双英之战”。
英特尔的“芯粒联盟”
UCIe的魅力在于可以将各个企业的Chiplet规定在统一的标准之下,这样不同厂商、工艺、架构、功能的芯片就可以进行混搭,从而轻而易举地达到互通,并且还能实现高带宽、低延迟、低能耗、低成本。芯谋研究高级分析师张彬磊向《中国电子报》记者表示,“小芯片”chiplet技术的发展有望推动异构计算的发展,chiplet技术提供统一接口和技术标准,解决异质封装的连接和传输效率问题(速率、能效上会有小幅损失)。UCIe标准将促进chiplet相关技术的发展,有望在性能和功耗方面达到平衡和商业化价值。
英特尔曾提出六大技术支柱,对XPU的实现起到了关键作用,包括制程、架构、内存、互连、安全和软件。异构计算虽然看似一个硬件层级的内容,但要释放其能力,需要芯片、系统、软件三层一体化考虑,才能够发挥作用。一是芯片层,指在芯片封装内的异构,和“小芯片”概念紧密相联;二是系统层,指多功能多架构的计算架构进行整合;三是软件层,统一的跨架构编程模型oneAPI,可以通过一套软件接口、一套功能库为开发者提供在不同架构上编程的便利性。在统一的UCIe标准下,异构的难度就会直线下降,并且效果更好。
目前,UCIe联盟已经囊括了半导体、封装、IP供应商、晶圆代工厂和云端服务提供厂商等上下游全产业链。AMD执行副总裁兼首席技术官Mark Papermaster表示:“UCIe标准将成为利用异构计算引擎和加速器来推动系统创新的关键因素。”
台积电科技院士、设计暨技术平台副总经理鲁立忠说:“该全行业联盟立志扩大封装级集成生态系统,台积电很高兴能加入其中。台积电提供各种硅技术和封装技术,为异构UCIe器件打造多种实现方案。”
日月光半导体工程与技术营销总监Lihong Cao博士指出:“业界普遍认为,异构集成有助于将基于小芯片的设计推向市场。”
英伟达或“另起炉灶”
然而,人们在关注UCIe联盟之余也发现,在UCIe联盟当中并没有英伟达与苹果这两大异构集成公司的身影。其中的原因,可以从英伟达CEO黄仁勋在近日召开的GTC 2022春季开发者大会上探知部分。
英伟达发布了NVIDIANVLink-C2C互连技术,其链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面积效率高出90倍,可实现每秒900GB乃至更高的一致互联带宽。也就是说,在异构集成的小芯片互连方面,英伟达也在做与英特尔类似的事情。
“除NVLink-C2C外,英伟达将支持UCIe标准。与NVIDIA芯片的定制芯片集成既可以使用UCIe标准,也可以使用 NVLink-C2C。” 黄仁勋说。
对此有专家指出,这表明英伟达并没有想要游离在UCIe联盟之外,但也同时展现出了英伟达对NVLink-C2C的绝对信心,未来也许会组建自己的联盟。
赛迪顾问集成电路中心高级咨询顾问池宪念向《中国电子报》记者表示,英伟达自身拥有的NVIDIA NVLink-C2C 依托于 NVIDIA 世界一流的 SERDES 和 LINK 设计技术,可从 PCB 级集成和多芯片模组扩展到硅插入器和晶圆级连接。这可提供极高的带宽,同时优化能效和裸片面积效率。相较于UCIe标准,NVLink-C2C经过优化,延迟更低、带宽更高、能效更高。
苹果或许与英伟达有着同样的考虑。本月初,“跨界选手”苹果携地球最强桌面芯片M1 Ultra抢别人“饭碗”,产品性能超越一众CPU与GPU的专业选手。
芯谋研究分析师张先扬向记者表示,2022年3月9日苹果公布的自研芯片M1 Ultra是基于Chiplet工艺,该技术提供了2.5TB/s的超高带宽,远远领先于目前公布的UCIe1.0标准。也就是说,苹果的Chiplet产品路线通过与台积电的合作就可以完成,且领跑于当前UCIe标准,因此对苹果来说,加入该联盟不是必选项。
“异构”格局扑朔迷离
此前,全球异构计算领域一直维持在互相制衡的三国杀格局。但UCIe联盟的出现打破了原有的平衡,英特尔和AMD的亲密互动,英伟达的似离非离,让整个形势变得扑朔迷离。尽管合纵连横是上上之策,但打铁还需自身硬,想要在异构计算的壁垒中率先突围,实力才是硬道理,所以三巨头都在各自擅长的领域内大动干戈。
“三巨头”分别都有自己主导的异构计算体系。池宪念介绍道,英特尔主导的异构计算体系主要为其自身系列产品和服务使用,在PC与高性能移动计算领域具有优势;以IBM、谷歌、英伟达为主的OpenPower联盟则以IBM Power芯片架构技术为基础,主要面向高性能计算领域应用;以AMD、高通、ARM、三星、北京华夏芯等为主体的HSA(heterogeneous system architecture,异构计算系统)联盟,是完全开放的异构计算联盟,ARM、高通、三星等巨头参与其中,在高性能移动计算领域具有优势。
CPU龙头英特尔作为业界唯一拥有CPU、独立GPU、IPU、ASIC、FPGA、各种加速器的企业。在最近的投资者会议中提出了一个新架构-Falcon Shores,计划于2024年完成,这是一款将X86和Xe GPU 整合到一个Xeon插槽中的新架构。
英特尔中国研究院院长宋继强向《中国电子报》记者表示,将X86的主芯片加上GPU的性能整合在一起,这是一个创新。在性能上,Falcon Shores将提供超过5倍的每瓦性能、超过5倍的计算密度以及超过5倍的内存容量和带宽。
在记者问到英特尔与其他几家相比有哪些优势时,宋继强指出,一是技术基础稳固且强大;二是英特尔能有架构和多种不同加速器去处理合适的应用负载;三是英特尔提出了“软件优先”。这对开发者来说尤为重要。
GPU龙头英伟达在去年的GTC2021上公布了其专为人工智能和超算使用需求打造的Grace CPU系列产品,并且打造了全新的芯片路线“GPU+DPU+CPU”。而在今年的GTC2022上,英伟达宣布推出首款面向AI基础设施和高性能计算的基于Arm Neoverse的数据中心专属CPU-“Grace CPU 超级芯片”。
GraceCPU 超级芯片是专为AI、HPC、云计算和超大规模应用而设计,由两个CPU芯片组成,两者通过NVLink-C2C进行互连。并且能够在单个插座(socket)中容纳 144 个 Arm核心,在 SPECrate 2017_int_base 基准测试中的模拟性能达到业界领先的 740 分。根据 NVIDIA 实验室使用同类编译器估算,这一结果较当前的DGX A100要高1.5倍以上。
黄仁勋对其偏爱有加,赞扬道:“Garce的一切都令人惊叹,我们预计Grace超级芯片届时将是最强大的CPU,是尚未发布的第5代顶级CPU的2到3倍。”
对于英伟达来说,Grace CPU的出现使英伟达的CPU产品不再受英特尔和AMD的限制,英伟达虽然是全球GPU霸主,但GPU只负责运算加速,需要依靠CPU下达指令才能执行,所以GPU和CPU的沟通就显得格外重要。
尽管此前闹得沸沸扬扬的ARM收购案虽然以失败告终,但这也是英伟达向外界传递的信号,对于增强自身在异构方面的决心展露无遗。
新晋FPGA龙头AMD在合并赛灵思完成后,摆脱各个行业只能第二的处境,AMD就此成为继英特尔后又一家兼具CPU、GPU、FPGA三大产品线的半导体厂商,未来AMD的CPU将与赛灵思的FPGA结合为CPU+FPGA的异构模式。赛灵思深耕的FPGA产品,2020年在FPGA市场,赛灵思全球和中国境内市场份额均达到50%~55%。对于赛灵思的收购,AMD总裁兼首席执行官苏姿丰表示,AMD通过有效整合赛灵思在FPGA方面的优势,能够提供具有更广泛高性能的计算产品组合,提供从CPU到GPU、ASIC、FPGA系统级解决方案。同时,借助赛灵思在5G、通信、自动驾驶和行业领域的资源,AMD能够将高性能计算能力带入更多领域,扩展到更广泛的客户群体中。而且AMD未来可实现FPGA在现成CPU 上运行编程语言,并研发出用于实现某些功能或软件堆栈的定制ASIC产品。
AMD全球高级副总裁、大中华区总裁潘晓明曾在2021世界半导体大会上表示:“今天和未来的工作负载需要强大的计算能力,异构计算是关键的未来趋势。AMD未来在计算、图形和解决方案的三个方面聚焦高性能计算,在持续发展的行业中保持高性能计算领导力。”