发布开源模型,训练期间大约使用万个英伟达

当地时间7月23号,Meta公司发布了迄今为止最强大的开源AI模型Llama3.1。该模型不仅规模庞大,性能也堪比最强大的闭源模型。这称得上是开源AI领域的一个重要里程碑。

Llama3.1模型家族总共有三个版本,规模最大的旗舰版本拥有405B(4050亿)参数,是近年来最大的开源AI模型。其余两个较小版本的参数量分别是700亿和80亿。

Meta声称,Llama3.1405B模型在多项基准测试中的表现超过了OpenAI的GPT-4o和Anthropic的Claude3.5Sonnet。

“到目前为止,开源大型语言模型在功能和性能方面大多落后于闭源模型。现在,我们正迎来一个由开源引领的新时代。”

Meta在官方博客中写道,“迄今为止,所有Llama版本的总下载量已超过3亿次,而这仅仅是个开始。”

(来源:Meta)模型评估

据介绍,Llama3.1系列模型展现了多方面的能力提升,在常识、可操纵性、数学、工具使用和多语言翻译等功能方面可与顶级AI模型相媲美。

Meta对Llama3.1进行了全面的评估,包括超过150个基准数据集的测试,涵盖多种语言和任务类型。

此外,该模型还经过了广泛的人工评估,与竞争模型在真实应用场景中进行比较。

图|模型评估结果(来源:Meta)总体而言,Llama3.1405B模型在推理、数学等多项任务中的表现与GPT-4、GPT-4o和Claude3.5Sonnet相当,在长文本、多语言等领域甚至更胜一筹。

不过在代码基准测试中,Llama3.1405B模型的表现不如Claude3.5Sonnet。

图|模型评估结果(来源:Meta)此外,在小型模型性能对比中,Llama3.1的8B和70B模型均表现出色,与同等规模的闭源和开源模型相比具有很强的竞争力,在几乎所有测试中都打败了对手。

图|模型评估结果(来源:Meta)模型能力与应用

Meta表示,Llama3.1系列模型的上下文窗口达到了128K,相当于一本50页的书,并且提供英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多语言支持,大大提升了长文本和多语种内容的处理能力。

Meta生成式人工智能副总裁艾哈迈德·达尔(AhmadAl-Dahle)表示,Llama3.1模型能够集成搜索引擎应用程序编程接口(API,ApplicationProgrammingInterface),根据复杂查询从互联网检索信息,并调用多个工具完成任务。例如,它可以生成并执行Python代码来绘制图表。

不过,Llama3.1目前还不是多模态模型,仅支持文本输入。但Meta表示,正在开发能识别图像、视频,并理解(和生成)语音的Llama模型。

在应用方面,与之前的Llama模型一样,Llama3.1405B可在亚马逊AWS、微软Azure和谷歌Cloud等云平台上下载或使用。它还会与Meta的产品结合,为用户提供聊天机器人和信息查询等服务。

该模型目前已经用在Meta.ai和MetaAI虚拟助手上。从本周开始,Llama3.1将首先登陆WhatsApp和美国的Meta.ai网站,随后几周将上线Instagram和Facebook。

虽然最先进的Llama3.1405B模型可以在Meta.ai上免费使用,但每周提示数量有限(上限不详),超过限制则会切换到更小的70B模型。这似乎表明405B模型对于Meta来说还是太昂贵了,无法全面运行。

模型规模与训练

Llama3.1405B模型的训练规模令人惊叹。

Meta使用了超过1.6万个英伟达H100GPU,在超过15万亿个tokens(的数据集)上进行训练,相当于7500亿个单词。

尽管Meta没有透露具体的开发成本,但仅根据其使用的英伟达芯片价格估算,成本就已高达数亿美元。

Meta对其整个训练堆栈进行了重大优化,以达到如此大规模的训练目标。

在模型架构方面,他们选择了标准的仅解码器transformer模型,而非混合专家模型,以最大化训练稳定性。

训练数据方面,Meta通过改进处理和数据筛选流程,提高了训练数据的质量。

此外,他们还选取了迭代式的后训练程序,“每轮都使用监督微调和直接偏好优化,用高质量的合成数据不断提升模型性能”。

开源策略与生态系统

尽管开发成本高昂,Meta仍坚持开源Llama模型。

Meta的CEO马克·扎克伯格(MarkZuckerberg)在公开信中表示,相比专有模型,开源AI模型终将超越它们,并且已经在以更快的速度改进,最终和Linux一样,成为支持大多数手机、服务器和设备的开源操作系统。

他预测,“Llama3.1的发布将成为行业的一个转折点,未来大多数开发者更青睐于使用开源模型。”

图|扎克伯格的公开信(来源:Meta)为了推广Llama3.1,Meta正与包括微软、亚马逊、谷歌、英伟达和Databricks在内的20多家公司合作,帮助开发者部署自己的模型。

Meta声称,Llama3.1在生产环境中的运行成本仅为OpenAI的GPT-4o的一半左右。

与此同时,发布开源模型,训练期间大约使用万个英伟达Meta更新了Llama的许可条款,让开发者可以通过Llama3.1模型的输出,来开发第三方AI模型。

这一变化解决了AI社区对Meta模型的一个主要批评,是公司积极争取AI领域话语权的一部分。

此外,为了确保模型的安全性和道德性,Meta首次在Llama3.1的“红队测试”(对抗性测试)中包括了潜在的网络安全和生物化学用例。

他们还公开了一个完整的参考系统,其中包括多个示例应用程序和新组件,如多语言安全模型LlamaGuard3和提示注入过滤器PromptGuard。

然而,关于训练数据的问题仍然存在争议。Meta拒绝透露具体的数据来源,只表示使用了合成数据来改进模型。

总而言之,Llama3.1系列模型的发布,象征着开源AI模型在性能上第一次和顶级闭源模型相匹敌。这可能会对AI行业产生深远影响,推动更多创新和应用。

参考资料:

https://ai.meta.com/blog/meta-llama-3-1/

https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

https://www.theverge.com/2024/7/23/24204055/meta-ai-llama-3-1-open-source-assistant-openai-chatgpt

https://techcrunch.com/2024/07/23/meta-releases-its-biggest-open-ai-model-yet/

运营/排版:何晨龙

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文