训练平均小时故障一次万卡集群好脆弱
-
训练平均小时故障一次,万卡集群好脆弱
西风发自凹非寺量子位|公众号QbitAI每3个小时1次、平均1天8次,Llama3.1405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama3.1论文中发现了华点:Llama3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意外,意外中78%已确认或怀疑是硬件问题导致。而且GPU问题最严重,占了58.7%。Llama3.1405模型是在一个含16384块NvidiaH10080GBGPU集群上进行训练的。虽说针对大规模系统有句老话:唯一...