reasoning-benchmarks

#reasoning-benchmarks

@dair_ai：// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环，请注意这一点。（收藏它）一……

X AI KOLs Following ↗ · 15小时前缓存

AEvo 是一个元编辑框架，通过将提议和评估分为两个角色，并利用累积的记忆指导未来搜索，改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升，并取得了最先进的结果。

0 人收藏 0 人点赞

#reasoning-benchmarks

arXiv cs.CL ↗ · 4天前缓存

本文介绍了 LogiHard，这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架，展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞