标签
AEvo 是一个元编辑框架,通过将提议和评估分为两个角色,并利用累积的记忆指导未来搜索,改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升,并取得了最先进的结果。
本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。