如何加速多端应用落地，在这场顶级盛会上有了答案

facai888 科技应用 2024-08-07 876 0 如何加速多端应用落地在这场顶级盛会上有了答案

编辑|宋慧

出品|CSDN（ID：CSDNnews）

以大模型、生成式AI为代表的人工智能已经进入爆发式发展阶段，正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到AI相关技术与应用研发中，希望能够在这个领域取得突破。各大科技公司也在不断加大在AI大模型领域的投入，希望能够在此领域中占据一席之地。

这就回到了绕不开的“算力”话题。面对GPU“缺卡”的局面，国产大模型玩家们如何破局？一切还要回归到用户真正的需求：

AI应用场景多种多样，其中有大量离线的LLM应用需求，如生成文章总结、摘要、数据分析等。与在线场景相比，离线场景通常会利用平台的闲时算力资源，对于推理的时延要求不高，而对于推理的成本较为敏感，因此用户更加倾向采用CPU来进行推理。此外，对于30B以上规模的LLM，所需的高规格的GPU成本较高、供货紧缺，对于离线场景的用户来说不是一个理想的选择。而针对该场景，CPU不仅可以很好地支持30B及以下规模的模型，而且在性价比上更具优势。在6月28日举办的国内AI技术开发顶级盛会WAVESUMMIT2024上，百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新AI技术与产品方案为例，展示了大模型时代，如何加速多端应用落地，在这场顶级盛会上有了答案AI算力成本高昂，以稳定性和成熟度更高的CPU，满足多终端AI应用对算力严苛需求的最新实践。

七年合作渊源共同挖掘CPU的AI算力潜能作为WAVESUMMIT战略合作伙伴的英特尔，旗下的OpenVINO™工具套件与百度飞桨PaddlePaddle深度学习框架已有七年的合作渊源。现在，英特尔正在和百度一起，充分挖掘CPU计算资源的潜能，以CPU去满足模型在多终端的推理加速。

作为国内首个一站式的大模型开发和推理应用平台，百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法，尤其是丰富的LLM支持，能够帮助用户构建各种智能应用。自去年3月发布以来，千帆大模型平台已有超12万客户使用，累计调优模型2万个，孵化应用4.2万个。这些应用覆盖教育、金融、办公、医疗等众多场景，为行业数字化转型提供了有力支撑。

百度智能云为代表的云平台中本身就部署着大量基于CPU的云服务器，释放这些CPU的AI算力潜力将有助于提升资源利用率，满足用户快速部署LLM模型的需求。

为了提升基于CPU的LLM推理性能，百度智能云利用英特尔®至强®可扩展处理器搭载的英特尔®AMX（高级矩阵扩展）等高级硬件能力，助力千帆大模型平台在百度智能云上的CPU端的推理加速。

百度智能云千帆大模型平台可支持广泛的英特尔®CPU选择

以Llama-2-7B模型为例，相比在第三代至强®可扩展处理器的输出Token吞吐，第四代和第五代至强®分别完成了相对前代60%和45%的接力提升。在低延迟的场景，同等并发下，第四代和第五代至强®可扩展处理器的首Token时延对比前代，也分别都达到50%左右的下降。

Llama-2-7B模型输出Token吞吐逐代提升

Llama-2-7B模型首Token时延逐步优化降低

加速多端、多领域AI落地英特尔的核心技术有哪些？xFT、AMX，让千帆大模型平台用CPU实现AI推理

AI技术和应用爆发，背后需要巨量的算力资源支撑。以大语言模型LLM为例，LLM推理过程中涉及大量的、多维度的矩阵乘法计算，在不同参数量级模型、不同并发、不同数据分布等场景下，模型推理的性能瓶颈可能在于计算或者带宽，为了保证模型生成的吞吐和时延，对硬件平台的算力和访存带宽都会提出较高的要求。

新一代英特尔®至强®可扩展处理器通过创新架构增加了每个时钟周期的指令，有效提升了内存带宽与速度，并通过PCIe5.0实现了更高的PCIe带宽提升。它还可支持HBM（HighBandwidthMemory）内存，和DDR5相比，具有更多的访存通道和更长的读取位宽，理论带宽可达DDR5的4倍。

在算力方面，第四代和第五代至强®可扩展处理器中还内置了英特尔®AMX加速器，可优化深度学习训练和推理工作负载。与内置英特尔®AVX-512_VNNI的第三代至强®相比，第四代至强®将单位计算周期内执行INT8运算的次数从256次提高至2048次，是AVX512_VNNI同样数据类型的8倍。

除此之外，会上英特尔展示的技术中，最亮眼的当属xFT（xFasterTransformer）了。

xFT基于英特尔®AMX等加速指令深度优化，专为大语言模型在至强®CPU平台推理部署设计，支持多种低精度数据类型，提供灵活API接口，非常方便开发者使用集成。

百度智能云千帆大模型平台已经采⽤基于AMX加速器和HBM硬件特性极致优化的xFT作为后端推理引擎，用户在千帆大模型平台上可以选择使用CPU作为计算资源，并进一步为基于CPU的LLM应用实现推理加速。方案针对超长上下文和长输出进行了优化，已经支持Llama-2-7B/13B，ChatGLM2-6B等主流模型部署在线服务。

千帆大模型平台可选择CPU计算资源进行推理服务

OpenVINO™推出LLM大模型专属API，加速本地AI推理

另外，已经与百度飞桨实现深度集成的英特尔AI开发工具套件OpenVINO™，也在最新发布的24.2版本中，引入了特定于LLM的API，用户可以加载模型，向其传递上下文，并通过几行代码返回响应。具体来说，更简易的更新API隐藏了内部生成循环的复杂性，并显著减少了需要在应用程序中编写的代码量。

在内部设计中，英特尔充分调动了不同硬件的不同特性，同时使用GPU和CPU的配合来为LLM进行推理加速。同时，OpenVINO™的引入可在训练时充分考虑到推理，进一步提升性能，同时保持问答和翻译的准确性。

行业落地实践：AMX加速医疗科研等专业领域AI应用会上，英特尔还分享了AI技术在生物医药、医疗等专业领域，如大分子计算、生物影像、单细胞组学分析、医疗大模型等等AI场景的实践经验。

以医疗大模型的行业应用为例，领先的医疗人工智能解决方案提供商惠每科技，就基于其临床决策支持系统(ClinicalDecisionSupportSystem，CDSS)3.0，为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。

在核心算力选择上，惠每科技选中了英特尔®至强®CPUMax系列处理器，在硬件基座之外，英特尔还借助IPEX-LLM大模型库实现推理加速的低精度量化方案，以及基于OpenVINO™工具套件开展的非量化优化方案，双管齐下，能让医疗大模型在至强®平台上的推理效率得到显著提升。

非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销，提供三个方面的优化，包括：利用零拷贝(Zero-Copy)视图来传递预分配的KV所需的内存副本空间，使用OpenVINO™opset来重构LLM的模型架构，以及引入OpenVINO™工具套件在HuggingFace上的Optimum接口。

优化后，大模型方案能在英特尔®架构CPU平台上获得巨大性能提升，并获得与GPU平台相近的性能表现。例如方案在2K输入时，经非量化方案优化后，首词延时下降至2.1秒，优化幅度达1.92倍。平均延时下降至47.96毫秒每Token，优化幅度达3.81倍。

英特尔非量化方案优化首词延时与平均延时性能均实现提升

结语

AI正在加速赋能千行百业，重塑人们的生产和生活方式。如何高效地部署AI技术与应用的同时，获得更优性价比，是行业开发者目前重点关注的话题。

成熟、稳定，对于开发者也更加熟悉的CPU结合当下AI场景的真实需求，对软硬件协同调优，为AI时代算力话题提供了新的设计思路和丰富的实践案例。未来，CPU将在AI浪潮中发挥怎样的作用，CSDN将持续关注报道。

点击「https://www.intel.cn/content/www/cn/zh/artificial-intelligence/baidu-ai-cloud-accelerates-llm.html?cid=soc&source=Wechat&article_id=5687」可了解更多至强®可扩展处理器为千帆大模型平台推理加速的相关信息。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052