reasoning-benchmarks

标签

Cards List
#reasoning-benchmarks

@dair_ai:// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环,请注意这一点。(收藏它)一……

X AI KOLs Following · 15小时前 缓存

AEvo 是一个元编辑框架,通过将提议和评估分为两个角色,并利用累积的记忆指导未来搜索,改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升,并取得了最先进的结果。

0 人收藏 0 人点赞
#reasoning-benchmarks

从零阶选择到二阶判断:组合硬化暴露前沿大语言模型的组合性缺陷

arXiv cs.CL · 4天前 缓存

本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈