谁赢了?英特尔和英伟达芯片基准测试大
不久前,在台北国际电脑展上,英特尔迫切希望在AI训练和推理领域展现其性能优势,并实施了一项未曾有过的举措:公布了其当前及前几代AI加速器的定价清单。这一举动对于像英伟达和AMD等AI加速器和系统初创公司来说实属罕见。
通过英特尔发布的Gaudi2和Gaudi3加速器的定价信息以及一些基准测试结果,包括采用这些芯片的服务器峰值馈入和速度,分析机构可以深入剖析并对芯片厂商之间的市场竞争进行比较。
英特尔发布其定价的原因很简单:该公司正努力通过销售AI芯片,为其未来的“FalconShores”GPU在2025年底入市,以及随后“FalconShores2”GPU在2026年的上市筹措资金。为了实现这一目标,英特尔必须向市场证明其产品不仅物超所值,而且在性能上也具备更加强大的竞争力。
这种自我证明之所以重要,还因为Gaudi3芯片已经从今年4月开始出货,也是英特尔2019年12月斥资20亿美元收购HabanaLabs、进而拿下Gaudi系列加速器产品线之后,推出的最新一代方案。
另一款“PonteVecchio”Max系列GPU是美国阿贡国家实验室“Aurora”超级计算机的核心,以其卓越的散热能力和高昂的制造成本闻名。但也同样受这两大劣势因素的影响,该系列GPU在这些交易之后几乎立即被封存,英特尔也希望从一再推迟的PonteVecchio平稳过渡到有望于明年年底准时推出的FalconShores。
正如英特尔在2023年6月透露的那样,“FalconShores”GPU将采用Gaudi生产线的大规模并行以太网结构和矩阵数学单元,并将其与为PonteVecchio创建的XeGPU引擎相结合。这样,“FalconShores”GPU可以同时进行64位浮点处理和矩阵数学处理。相比之下,PonteVecchio并没有具备64位矩阵处理能力,只支持64位矢量处理,虽然这样的设计有其独特优势,但它也意味着PonteVecchio在处理某些人工智能工作负载时可能不是更优选择,这在一定程度上限制了其市场吸引力。
因此,英特尔公司将Gaudi和Xe计算单元合并全新的FalconShores引擎,旨在为用户提供更强大、更灵活的计算能力。
尽管人们对FalconShores的具体性能了解有限,但已经知道其功耗高达1500瓦,与预计明年初即将批量出货的高端“Blackwell”B200GPU相比,其功耗和散热需求高出25%。B200GPU额定功率为1200瓦,在4位浮点精度下可提供每秒20千万亿次的计算能力。在相同的芯片制造工艺水平下,FalconShores在相同浮点精度下的能耗与Blackwell相比多出25%。
对于英特尔来说,更优的选择可能是利用预计于2025年投产的Intel18A制造工艺来制造FalconShores,并能够展现出更强大的浮点运算能力。而FalconShores2则有望采用更为先进的英特尔14A处理器,预计将在2026年推出。
英特尔在代工和芯片设计业务上的策略早已引起业界的关注。相比之下,台积电在技术上持续创新,英伟达的GPU路线图也展现出了强劲的发展势头。例如,“BlackwellUltra”计划在2025年推出,配备HBM内存,GPU计算能力也有望得到提升。随后,“Rubin”GPU将于2026年问世,而“RubinUltra”的后续产品则预计将于2027年推出。竞争对手的这些进展无疑给英特尔带来了不小的压力。
与此同时,英特尔在去年10月曾表示,其Gaudi加速器的销售额有望达到20亿美元,但在今年4月表示,预计2024年Gaudi加速器的销售额将缩减至5亿美元。然而,与AMD今年公司预计的40亿美元GPU销售额,以及英伟达在数据中心计算领域今年可能实现的1000亿美元甚至更高的销售额相比,英特尔的销售额显得相形见绌。
然而,为了达成这20亿美元的销售目标,英特尔必须确保“FalconShores”和“FalconShores2”的成功销售。因此,谁赢了?英特尔和英伟达芯片基准测试大英特尔在大会的简报中积极公布了价格与基准测试结果,以展现Gaudi3加速器与当前市场上英伟达“Hopper”H100GPU的竞争力。这一举措体现了英特尔对这两款新品的更高期望与积极推广的态度。
对决开始啦↓↓↓
英特尔的第一个对比是AI训练,GPT-3大型语言模型有1750亿个参数,Llama2模型有700亿个参数:
上述GPT基准测试的数据基于MLPerf标准运行,而Llama2的数据则结合了英伟达发布的H100测试结果和英特尔的估算。值得注意的是,GPT基准测试在拥有8192个加速器的集群上运行,其中英特尔Gaudi3配备了128GB的HBM内存,而英伟达H100则拥有80GB的HBM内存,而Llama2测试则在仅包含64台设备的机器上进行。
在推理方面,英特尔进行了两项比较:首先是将配备128GBHBM的Gaudi3与80GBHBM的H100进行对比;其次是将同样拥有128GB内存的Gaudi3与拥有141GBHBM的H200进行比较。英伟达的数据涵盖了使用TensorRT推理层在各种模型上的表现,而英特尔的数据则专门针对Gaudi3进行了测试。
下图是H10080GB与Gaudi3128GB进行的比较:
下图是H200141GB和Gaudi3128GB进行的比较:
在此重申两个观点:首先,真正能够得到广泛应用的AI加速器,必定是那些能提供更具性价比的产品。其次,如果某个加速器能够以合理的精度混合执行矩阵数学运算,并且支持PyTorch框架以及Llama2或Llama3模型,那么它必将受到市场的青睐,尤其是在英伟达GPU供应紧张的背景下,而这对于英特尔来说,无疑是一个难得的商机。
在训练环节,英特尔的比较采用了Llama27B、Llama213B和GPT-3175B的真实英伟达数据平均值,与Gaudi3的估算值进行了对比。为了进行推断,英特尔则结合了Llama27B、Llama270B和Falcon180B的真实英伟达数据平均值,与Gaudi3的估计数据进行了对比。
如果计算这些性能和成本,并结合图表中呈现的相对性能数据,那么可以得出以下结论:英特尔假设英伟达H100加速器的成本为23,500美元,而如果简单估算Gaudi3UBB的成本,则为15,625美元。
跟英特尔不同,分析机构观察一段时间之内的趋势与更广泛的峰值理论性能,借此找出每单元对应算力与单位性能对应的售价(二者互逆)。为此,制作了一个表格,将英伟达“Ampere”A100、H100、BlackwellB100以及英特尔的Gaudi2和Gaudi3加速器进行了比较,两者都是有8个加速器的基板配置。以下是具体的对比情况:
需要注意的是,这些数字是一个八通道主板,而不是一个设备,这将是大多数AI客户的基本计算单位。
当然,当涉及到为这些设备及其基板集群使用计算、内存和网络适配器时,每个AI模型都有自己的独特需求和特点。实际表现肯定会因工作负载和具体设置的不同而有所差异。
另外还从系统的角度来估算使用这些基板并添加双插槽x86服务器组合的成本。这套服务器组合拥有2TB主内存、400Gb/秒InfiniBand网卡、两块1.9TBNVM-Express闪存驱动器(用于操作系统)和八块3.84TBNVM-Express闪存驱动器(用于将本地数据传送至UBB)。
上述表格清晰地展示了这五种服务器的相对性价比。在比较时统一采用了FP16精度,这是一个比较公平的基准,同时并未激活设备上的任何稀疏性支持,因为并不是所有矩阵和算法都能充分利用这一功能。
英伟达公司创始人黄仁勋在去年的主题演讲中明确指出,HGXH100基板的售价为20万美元,这一价格并且与市场上完整系统的价格一致。而英特尔公司最新透露,配备8个Gaudi3加速器的基板售价为12.5万美元。在性能方面,H100基板额定速度为每秒8千万亿次,而Gaudi3基板则达到了每秒14.68千万亿次。这意味着,对于每千兆次浮点运算,H100的成本为25,000美元,而Gaudi3的成本仅为8,515美元,英特尔在此方面展现了高达2.9倍的性价比优势。
如果用户构建一个系统,并添加那些成本昂贵的CPU、主内存、网络接口卡和本地存储设备,那么成本的差异就会逐渐缩小。如上所述,配置英伟达H100系统的成本可能在375,000美元左右,即每千万亿次浮点运算46,875美元。同样配置的Gaudi3系统的运行成本约为27.5万美元,每千万亿次浮点运算的成本为18733美元。英特尔在此方面展现了2.5倍的性价比优势。
从表中可以看出,在16位浮点精度上,Gaudi3与英伟达的BlackwellB100性能相当,后者将于今年晚些时候上市。然而,在8位浮点精度方面,Blackwell更具优势,Blackwell也支持4位浮点精度,Gaudi3目前不能支持。
如果将把支持、电力、环境和管理成本都算进去,那么英伟达公司和英特尔公司的GPU之间的差距开始缩小,但英特尔显然在某些精度上有相当可观的性价比优势。
因此,从系统级别考虑问题,用户可以在自己的模型和应用程序上进行基准测试。
最后再探讨一下英特尔公司的收入和Gaudi3的潜在市场动向。经过计算,发现5亿美元的资金足以生产大约4000块服务器主板和32000个Gaudi3加速器。而对于剩余的15亿美元,几乎可以肯定的是,英特尔将用于Gaudi3的销售,而不是销售积压的未交货产品。这意味着,英特尔公司并没有将这15亿美元收入囊中,而是代表着销售12000块以上服务器主板的机会,相当于售出高达96000个加速器。
相比之下,英伟达公司今年预计将销售数百万个数据中心GPU,尽管其中许多并不是H100、H200、B100和B200这样的高端产品,但其销售规模仍然十分可观。这进一步证明了数据中心GPU市场生机勃勃的活力和巨大的潜力。
参考链接:
https://www.nextplatform.com/2024/06/13/stacking-up-intel-gaudi-against-nvidia-gpus-for-ai/