标签
介绍Mask-Proof,一种基于LLM的流水线,可将数学证明转化为掩码步骤任务用于自动评估,并呈现MaskProofBench,一个包含292个精选问题的基准测试,与专家标注者的一致性达到96.8%。
MIND-Skill 是本研究论文提出的一种新框架,它利用基于 TextGrad 优化的多智能体归纳和演绎,自动化生成高质量、可复用的智能体技能,并提供质量保证。