港中深团队打造新型评测集或可成为数学大模型检验的重要基准
-
港中深团队打造新型评测集,或可成为数学大模型检验的重要基准
近日,来自香港中文大学(深圳)的一支科研团队通过求解器的引入,把大模型回答的数学模型交给求解器解决,进而通过比对求解器的答案,得以成功判断数学模型的正确性。这相当于为参加考试的考生准备了高级计算器,只需输入方程就能得出准确答案。这样一来,就可以判断学生所写的方程是否正确。基于这个理念,该团队构建了一款名为Mamo的评测集,能够结合不同的求解器评测大模型相应的建模能力。未来,这一评测集可能会成为数学大模型检验的重要基准,从而能够用于测试新训练大模型的建模能力。同时,本次评测集的出现,也让评测中间过程成为可能,有望带动...