reasoning-benchmarks

标签

Cards List
#reasoning-benchmarks

HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA · 2026-05-19 缓存

Sapient Intelligence发布了HRM-Text,一个1B参数的文本生成模型,仅用0.04万亿token训练(成本约1000美元),在多个推理基准上超越训练数据多100-1000倍的更大模型,标志着AI训练新范式的开始。

0 人收藏 0 人点赞
#reasoning-benchmarks

@daniel_mac8: 宝贝,醒醒。最新的持续学习突破出现了。fast-slow training (FST) 将模型参数视为“慢权重”…

X AI KOLs Timeline · 2026-05-17 缓存

这条推文介绍了Fast-Slow Training (FST),一种新的持续学习方法,将模型参数视为慢权重,优化上下文视为快权重,据称在数学、代码和通用推理基准测试上全面优于仅权重训练。

0 人收藏 0 人点赞
#reasoning-benchmarks

@dair_ai:// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环,请注意这一点。(收藏它)一……

X AI KOLs Following · 2026-05-14 缓存

AEvo 是一个元编辑框架,通过将提议和评估分为两个角色,并利用累积的记忆指导未来搜索,改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升,并取得了最先进的结果。

0 人收藏 0 人点赞
#reasoning-benchmarks

从零阶选择到二阶判断:组合硬化暴露前沿大语言模型的组合性缺陷

arXiv cs.CL · 2026-05-11 缓存

本文介绍了 LogiHard,这是一个利用组合硬化来暴露前沿大语言模型组合性缺陷的框架,展示了模型在逻辑推理任务中准确率的显著下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈