港中深团队打造新型评测集或可成为数学大模型检验的重要基准

港中深团队打造新型评测集，或可成为数学大模型检验的重要基准

近日，来自香港中文大学（深圳）的一支科研团队通过求解器的引入，把大模型回答的数学模型交给求解器解决，进而通过比对求解器的答案，得以成功判断数学模型的正确性。这相当于为参加考试的考生准备了高级计算器，只需输入方程就能得出准确答案。这样一来，就可以判断学生所写的方程是否正确。基于这个理念，该团队构建了一款名为Mamo的评测集，能够结合不同的求解器评测大模型相应的建模能力。未来，这一评测集可能会成为数学大模型检验的重要基准，从而能够用于测试新训练大模型的建模能力。同时，本次评测集的出现，也让评测中间过程成为可能，有望带动...

科技应用 2024-09-04 765 0 港中深团队打造新型评测集或可成为数学大模型检验的重要基准

1