agentic-reasoning

标签

Cards List
#agentic-reasoning

AGORA: 基于档案的智能体工作场所文档推理基准

arXiv cs.CL · 2026-06-24 缓存

AGORA 是一个新的基准,用于评估大型语言模型在工作场所文档上进行基于档案的推理任务,包含 362 个问题,涉及 9,664 份真实文档。最强模型仅达到 59.4% 的准确率,凸显出巨大的改进空间。

0 人收藏 0 人点赞
#agentic-reasoning

Nemotron 3 Ultra:用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers · 2026-06-12 缓存

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。

0 人收藏 0 人点赞
#agentic-reasoning

PhotoCraft: 基于层次化自演化记忆的深度图像搜索智能体推理

arXiv cs.CL · 2026-06-03 缓存

PhotoCraft 提出了一种无需训练的层次化记忆系统,用于照片搜索智能体,集成了工作记忆、情景记忆和语义记忆,以维持长期上下文并在任务间迁移知识,在 DISBench 上取得了高达 18.5% 的提升。

0 人收藏 0 人点赞
#agentic-reasoning

自适应潜在智能体推理

arXiv cs.CL · 2026-06-03 缓存

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

0 人收藏 0 人点赞
#agentic-reasoning

DAR:基于智能体框架的道义推理

Hugging Face Daily Papers · 2026-06-03

本文介绍了DAR(Deontic Agentic Reasoning),一个智能体框架,使LLM能够交互式地查询法律法规和政策,用于法律/监管推理任务。在DeonticBench上评估的结果表明,智能体引导可以提升前沿模型,但可能会导致较弱模型在数值任务上表现下降,同时消耗更多令牌。

0 人收藏 0 人点赞
#agentic-reasoning

CP-Agent:一种用于反馈驱动型竞赛编程的校准风险控制代理

arXiv cs.CL · 2026-05-26 缓存

CP-Agent 提出了一种借助大型语言模型的校准风险控制方法,用于反馈驱动型竞赛编程,无需参数更新即可在基准测试上取得显著改进。

0 人收藏 0 人点赞
#agentic-reasoning

SAM:面向长程推理智能体的状态自适应记忆

Hugging Face Daily Papers · 2026-05-23 缓存

本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。

0 人收藏 0 人点赞
#agentic-reasoning

@reach_vb: GPT-5.5 为 Omarchy 4 分支生成了 3 万行 QML 代码,并精准完成了微妙的智能体推理!!

X AI KOLs Following · 2026-05-22 缓存

OpenAI 的 GPT-5.5 模型在复杂的智能体任务和代码生成方面显示出显著改进,超越了先前版本以及如 Claude Opus 等竞争模型。

0 人收藏 0 人点赞
#agentic-reasoning

通过自我调节的模拟规划实现高效代理推理

Hugging Face Daily Papers · 2026-05-21 缓存

介绍了 SR²AM,一种通过自我调节的模拟规划实现高效代理推理的框架,在推理 token 减少 26-95% 的同时,达到了与 20-30 倍参数规模模型相竞争的性能。

0 人收藏 0 人点赞
#agentic-reasoning

CopT: 用于通用与智能体推理的连续空间对比在线思考

Hugging Face Daily Papers · 2026-05-19 缓存

CopT为大型语言模型引入了一种对比性在线思考框架,首先生成草稿答案,然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上,准确率最高提升23%,token使用量最多降低57%。

0 人收藏 0 人点赞
#agentic-reasoning

VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

Hugging Face Daily Papers · 2026-05-15 缓存

VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。

0 人收藏 0 人点赞
#agentic-reasoning

ATLAS:智能体还是隐式视觉推理?一个词足矣

Hugging Face Daily Papers · 2026-05-14 缓存

ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。

0 人收藏 0 人点赞
#agentic-reasoning

学习探索:通过探索感知策略优化扩展代理推理

Hugging Face Daily Papers · 2026-05-12 缓存

本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。

0 人收藏 0 人点赞
#agentic-reasoning

工具即连续流:用于演进式智能体推理

arXiv cs.AI · 2026-05-11 缓存

本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。

0 人收藏 0 人点赞
#agentic-reasoning

AlphaEarth嵌入几何刻画:面向智能体环境推理

arXiv cs.CL · 2026-04-22 缓存

分析Google AlphaEarth在1210万美国样本上的64维嵌入流形,揭示其非欧结构与向量算术失效,并构建具备几何感知工具的智能体系统,在环境查询上超越参数基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈