如何加速多端应用落地,在这场顶级盛会上有了答案
编辑|宋慧
出品|CSDN(ID:CSDNnews)
以大模型、生成式AI为代表的人工智能已经进入爆发式发展阶段,正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到AI相关技术与应用研发中,希望能够在这个领域取得突破。各大科技公司也在不断加大在AI大模型领域的投入,希望能够在此领域中占据一席之地。
这就回到了绕不开的“算力”话题。面对GPU“缺卡”的局面,国产大模型玩家们如何破局?一切还要回归到用户真正的需求:
AI应用场景多种多样,其中有大量离线的LLM应用需求,如生成文章总结、摘要、数据分析等。与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用CPU来进行推理。此外,对于30B以上规模的LLM,所需的高规格的GPU成本较高、供货紧缺,对于离线场景的用户来说不是一个理想的选择。而针对该场景,CPU不仅可以很好地支持30B及以下规模的模型,而且在性价比上更具优势。在6月28日举办的国内AI技术开发顶级盛会WAVESUMMIT2024上,百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新AI技术与产品方案为例,展示了大模型时代,如何加速多端应用落地,在这场顶级盛会上有了答案AI算力成本高昂,以稳定性和成熟度更高的CPU,满足多终端AI应用对算力严苛需求的最新实践。
七年合作渊源共同挖掘CPU的AI算力潜能作为WAVESUMMIT战略合作伙伴的英特尔,旗下的OpenVINO™工具套件与百度飞桨PaddlePaddle深度学习框架已有七年的合作渊源。现在,英特尔正在和百度一起,充分挖掘CPU计算资源的潜能,以CPU去满足模型在多终端的推理加速。
作为国内首个一站式的大模型开发和推理应用平台,百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的LLM支持,能够帮助用户构建各种智能应用。自去年3月发布以来,千帆大模型平台已有超12万客户使用,累计调优模型2万个,孵化应用4.2万个。这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。
百度智能云为代表的云平台中本身就部署着大量基于CPU的云服务器,释放这些CPU的AI算力潜力将有助于提升资源利用率,满足用户快速部署LLM模型的需求。
为了提升基于CPU的LLM推理性能,百度智能云利用英特尔®至强®可扩展处理器搭载的英特尔®AMX(高级矩阵扩展)等高级硬件能力,助力千帆大模型平台在百度智能云上的CPU端的推理加速。
百度智能云千帆大模型平台可支持广泛的英特尔®CPU选择
以Llama-2-7B模型为例,相比在第三代至强®可扩展处理器的输出Token吞吐,第四代和第五代至强®分别完成了相对前代60%和45%的接力提升。在低延迟的场景,同等并发下,第四代和第五代至强®可扩展处理器的首Token时延对比前代,也分别都达到50%左右的下降。

Llama-2-7B模型输出Token吞吐逐代提升
Llama-2-7B模型首Token时延逐步优化降低
加速多端、多领域AI落地英特尔的核心技术有哪些?xFT、AMX,让千帆大模型平台用CPU实现AI推理
AI技术和应用爆发,背后需要巨量的算力资源支撑。以大语言模型LLM为例,LLM推理过程中涉及大量的、多维度的矩阵乘法计算,在不同参数量级模型、不同并发、不同数据分布等场景下,模型推理的性能瓶颈可能在于计算或者带宽,为了保证模型生成的吞吐和时延,对硬件平台的算力和访存带宽都会提出较高的要求。
新一代英特尔®至强®可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过PCIe5.0实现了更高的PCIe带宽提升。它还可支持HBM(HighBandwidthMemory)内存,和DDR5相比,具有更多的访存通道和更长的读取位宽,理论带宽可达DDR5的4倍。
在算力方面,第四代和第五代至强®可扩展处理器中还内置了英特尔®AMX加速器,可优化深度学习训练和推理工作负载。与内置英特尔®AVX-512_VNNI的第三代至强®相比,第四代至强®将单位计算周期内执行INT8运算的次数从256次提高至2048次,是AVX512_VNNI同样数据类型的8倍。
除此之外,会上英特尔展示的技术中,最亮眼的当属xFT(xFasterTransformer)了。
xFT基于英特尔®AMX等加速指令深度优化,专为大语言模型在至强®CPU平台推理部署设计,支持多种低精度数据类型,提供灵活API接口,非常方便开发者使用集成。
百度智能云千帆大模型平台已经采⽤基于AMX加速器和HBM硬件特性极致优化的xFT作为后端推理引擎,用户在千帆大模型平台上可以选择使用CPU作为计算资源,并进一步为基于CPU的LLM应用实现推理加速。方案针对超长上下文和长输出进行了优化,已经支持Llama-2-7B/13B,ChatGLM2-6B等主流模型部署在线服务。
千帆大模型平台可选择CPU计算资源进行推理服务
OpenVINO™推出LLM大模型专属API,加速本地AI推理
另外,已经与百度飞桨实现深度集成的英特尔AI开发工具套件OpenVINO™,也在最新发布的24.2版本中,引入了特定于LLM的API,用户可以加载模型,向其传递上下文,并通过几行代码返回响应。具体来说,更简易的更新API隐藏了内部生成循环的复杂性,并显著减少了需要在应用程序中编写的代码量。
在内部设计中,英特尔充分调动了不同硬件的不同特性,同时使用GPU和CPU的配合来为LLM进行推理加速。同时,OpenVINO™的引入可在训练时充分考虑到推理,进一步提升性能,同时保持问答和翻译的准确性。
行业落地实践:AMX加速医疗科研等专业领域AI应用会上,英特尔还分享了AI技术在生物医药、医疗等专业领域,如大分子计算、生物影像、单细胞组学分析、医疗大模型等等AI场景的实践经验。
以医疗大模型的行业应用为例,领先的医疗人工智能解决方案提供商惠每科技,就基于其临床决策支持系统(ClinicalDecisionSupportSystem,CDSS)3.0,为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。
在核心算力选择上,惠每科技选中了英特尔®至强®CPUMax系列处理器,在硬件基座之外,英特尔还借助IPEX-LLM大模型库实现推理加速的低精度量化方案,以及基于OpenVINO™工具套件开展的非量化优化方案,双管齐下,能让医疗大模型在至强®平台上的推理效率得到显著提升。
非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销,提供三个方面的优化,包括:利用零拷贝(Zero-Copy)视图来传递预分配的KV所需的内存副本空间,使用OpenVINO™opset来重构LLM的模型架构,以及引入OpenVINO™工具套件在HuggingFace上的Optimum接口。
优化后,大模型方案能在英特尔®架构CPU平台上获得巨大性能提升,并获得与GPU平台相近的性能表现。例如方案在2K输入时,经非量化方案优化后,首词延时下降至2.1秒,优化幅度达1.92倍。平均延时下降至47.96毫秒每Token,优化幅度达3.81倍。
英特尔非量化方案优化首词延时与平均延时性能均实现提升
结语
AI正在加速赋能千行百业,重塑人们的生产和生活方式。如何高效地部署AI技术与应用的同时,获得更优性价比,是行业开发者目前重点关注的话题。
成熟、稳定,对于开发者也更加熟悉的CPU结合当下AI场景的真实需求,对软硬件协同调优,为AI时代算力话题提供了新的设计思路和丰富的实践案例。未来,CPU将在AI浪潮中发挥怎样的作用,CSDN将持续关注报道。
点击「https://www.intel.cn/content/www/cn/zh/artificial-intelligence/baidu-ai-cloud-accelerates-llm.html?cid=soc&source=Wechat&article_id=5687」可了解更多至强®可扩展处理器为千帆大模型平台推理加速的相关信息。